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《 
上 ， 将 其 中 3 个 分 册 进 行 拆 分 ， 扩 充 为 6 册 ， 最 终 形成 13 册 。 


分 析 化 学 手册 》 第 三 版 在 第 二 版 的 基础 上 作 了 较 大 幅度 的 增补 和 删 减 ， 保 持原 手册 10 个 分 册 的 基础 















































本 书 的 编写 依照 分 析 化 学 研究 的 全 过 程 ， 从 选择 分 析 方 法 和 采样 开始 ， 经 化 学 量 测 的 试验 设计 、 信 号 


预 处 理 、 定 性 定量 分 析 的 多 元 校正 和 多 元 分 妆 








*. BEI 





的 数字 模拟 方法 、 化 学 构 效 关系 研究 直至 人 


计算 机 程序 和 参考 文献 ， 方 便 读者 通过 本 书 月 

















有 用 决策 信息 的 提取 ， 包 括 化 学 模式 识别 、 机 理 研 究 











:智能 与 化 学 专家 系统 ， 试 图 覆盖 分 析 化 学 计量 学 的 全 部 内 容 。 























题 的 解决 。 
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在 讨论 了 化 学 计量 学 的 基本 概念 和 基本 方法 的 数学 定义 、 基 本 思路 及 算法 的 基础 上 ， 尽 量 同 时 给 出 相应 的 


























提供 的 

















BB 为 从 事 分 析 化 学 研究 的 技术 人 员 了 解 和 使 
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定义 或 方法 进行 试验 ， 并 可 进一步 将 其 运用 于 实际 问 























化 学 计量 学 方法 提供 了 重要 的 工具 与 参考 资料 。 
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分 析 化 学 是 人 们 获得 
主要 任务 是 鉴定 物质 的 化 学 
的 关系 。 分 析 化 学 是 
现代 分 析 化 学 必须 
上 已 发 展 


























物质 组 成 、 结 构 及 相关 信息 的 科学 ， 即 测量 














组 成 及 含量 测定 、 














一 门 社 会 和 科技 发 展 迫 切 需要 的 、 
回答 当代 科学 技术 和 社会 需求 对 现存 的 方法 和 技术 的 挑战 ， 
成 为 “分 析 科 学 "。 





《分 析 化 学 手册 》 是 一 套 全 
《分 析 化 学 手 
年 至 2000 年 陆 
化 学 实验 室 的 


进入 21 





发 展 ,为 更 好 总 结 这 些 进 展 , 为 广大 读者 服务 
第 三 版 ) 的 修订 工作 ， 成 立 了 


析 化 学 了 























H) 第 
续 出 o 手册 出 版 后 ， 受到 广大 读 者 的 A, 成 为 国内 4 
会 发 展 都 产生 了 重要 作用 。 


会 发 展 对 分 析 化 学 提出 的 种 种 要 求 ， 各 种 新 的 分 析 
手段 、 仪 器 设备 、 信 息 技 术 的 出 现 ， 极 大 地 丰富 了 分 析 化 学 学 科 的 内 涵 、 





必 备 图 
世纪 ， 随 着 科技 进步 和 社 






































时 与 表征 的 科学 。 其 


























反映 现代 分 析 技 术 ， 人 垦 
一 版 于 1979 FER, 有 .6 个 分 册 ; 第 二 版 扩充 为 10 个 分 册 , 于 1996 
民 多 分析 化 验 室 和 


























共 化 学 工作 者 使 





















































FA 
这 些 专 家 包括 了 10 位 中 国 科 学 院 院士 
长 江 学 者 特聘 教授 和 国家 杰出 青 4 














图 书 ， 对 我 国 科 技 进 步 和 社 






























































, 化 学 工业 出 版 科 











确定 物质 的 结构 形态 及 其 与 物质 性 质 之 间 
多 学 科 交 叉 结 合 (=) 


的 综合 性 科学 。 


因此 实际 








用 的 专业 工具 书 。 











促进 了 学 科 的 


EB 2010 年 起 开始 启动 《分 








分 析 化 学 界 30 余 位 专家 组 成 的 编 委 会 ， 






































N NE 获得 者 ， 




















的 领导 下 , 作者、 编辑 、 编 委 通 力 合 { 
本 次 修订 保持 
册 ， 最 终 形成 10 分 册 13 册 的 格 


























化 学 分 析 
原子 光谱 分 析 
分 子 光 谱 分 析 
B 分 析 化 学 
气相 色谱 分 析 























液 相 色谱 分 析 



































基础 知识 与 安全 知识 








以 及 各 领域 经 验 丰 富 
FE, 历时 六 年 完成 了 这 套 1800 余 万 字 的 大 型 工具 书 。 


了 第 二 版 10 分 册 的 基本 架构 ， 将 其 中 的 3 个 分 册 进 行 拆 分 ， 扩 充 为 6 





、 中 国 工程 院 院 士 和 发 展 中 国家 科学 院 院 士 , 多 位 














时 





的 专家 。 在 编 委 会 














-1 核磁 共 E d ; Dd 分 析 





^E 





有 机 质谱 分 析 
无 机 质谱 分 析 
化 学 计量 学 

















-13 核磁 共 EIR IE 分 析 
热 分 析 与 量 热学 














其 中 ， 原 《光谱 分 析 》 拆 分 为 《原子 光谱 分 析 》 和 《分 子 光 谱 分 析 》;《 核 磁 共振 波 























谱 分 析 》 拆 分 为 《 氨 -1 核磁 共振 波谱 分 析 》 和 《 碳 -13 核磁 共振 波谱 分 析 》;《 质谱 分 析 》 


















































新 增加 了 无 机 质谱 分 析 的 内 容 ， 拆 分 为 《有 机 质谱 分 析 》 和 《无 机 质谱 分 析 》， 并 对 仪器 


结构 及 方法 原理 进行 了 全 面 的 更 新 。 另 外 ,《 热 分 析 》 增 加 了 量 热学 方面 的 内 容 ， 分 册 名 











变更 为 《 热 分 析 与 量 热学 》。 









































本 版 修订 秉承 的 宗旨 : 一 、 保 持 手 册 一 贯 的 权威 性 和 典型 性 ,体现 预见 性 和 前 瞻 性 ， 
阅 功 能 ， 同 时 注重 对 分 析 方 法 和 技术 的 介 























突出 新 疾 性 和 实用 性 ， 二 、 继 承 手册 的 数据 查 


















































绍 ; 三 、 着 重 收录 了 基础 性 理论 和 发 展 较 成 熟 
容 ， 更 新 有 关 数 据 ， 增 补 各 领域 近 十 年 来 的 新 
































的 方法 与 技术 ， 汉 











1 除 已 废弃 的 或 过 时 的 内 























种 分 析 技 术 联 用 、 分 析 技 术 在 生命 科学 中 的 应 














用 等 方面 的 内 容 ; 








方法 、 新 成 果 ， 特 别 是 计算 机 的 应 用 、 多 


四 、 在 编排 方式 上 ， 突 

















出 手册 的 可 查阅 性 ， 各 分 册 均 编排 主题 词 索引 














， 与 目录 相互 补充 ， 对 于 数据 表格 、 图 谱 
比较 多 的 分 册 ， 增 加 表 索 引 和 谱 图 索引 ， 部 分 分 册 增 设 了 符号 与 缩 略 语 对 照 。 













































































手册 第 三 版 获得 了 国家 出 版 基金 项 目的 支持 ， 编 写 与 修订 工作 得 到 了 我 国 分 析 化 学 



































同仁 的 大 力 支持 ， 全 套 书 的 修订 出 版 凝聚 了 他 们 大 量 的 心血 和 期 望 ， 在 此 说 向 他 们 ， 














x XB 





























及 在 编写 过 程 中 曾 给 予 我 们 热情 支持 与 帮助 的 有 关 院 校 、 科 研 院 所 及 厂矿 企业 的 专家 




















和 同行 ， 致 以 诚挚 的 谢意 。 同 时 我 们 也 真诚 期 契 








广大 读者 的 热情 关注 和 批评 指正 。 


《 分 析 化 学 手册 》( 第 三 版 ) 编 委 会 
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《分 析 化 学 手册 》 是 化 学 工业 出 版 社 从 1979 年 开始 陆续 出 版 的 一 套 全 面 反映 现代 分 析 技 
术 ， 供 化 学 工作 者 使 用 的 专业 工具 书 。 初 版 有 六 分 册 ，1996 一 2000 年 期 间 ， 出 版 了 第 二 版 ， 
扩 增 为 10 个 分 册 ， 其 中 第 十 分 册 即 为 2000 4E 12 月 出 版 的 《化 学 计量 学 》 分 册 〈 梁 逸 曾 y 
汝 勤 主编 )， 这 一 新 增 的 分 册 出 版 至 今 也 已 有 16 个 年 头 了 。 大 家 知道 ， 最 近 数 十 年 是 世界 科 
技 快速 发 展 时 期 , 《分 析 化 学 手册 》 可 谓 见 证 了 这 一 关键 过 程 。 进 入 21 世纪 ， 随 着 科技 进步 
和 社会 发 展 ， 各 类 分 析 新 手段 、 新 仪器 设备 、 新 信息 技术 的 不 断 涌 现 ， 极 大 地 丰富 了 分 析 化 
学 学 科 内 涵 、 促 进 了 学 科 发 展 ， 同 时 化 学 计量 学 方法 与 近 红 外 光谱 结合 应 用 ， 这 一 牛刀 小 试 
已 充分 证 明了 化 学 计量 学 的 重要 性 和 应 用 潜力 。 化 学 工业 出 版 社 自 2010 年 起 开始 启动 《分 
析 化 学 手册 》 (第 三 版 ) 的 修订 出 版 工作 ,《 化 学 计量 学 》 分 册 继 续 得 到 出 版 支持 。 

大 家 知道 ， 根 据 国际 化 学 计量 学 学 会 给 化 学 计量 学 作出 的 定义 : 化 学 计量 学 是 一 门 通过 
统计 学 或 数学 方法 将 对 化 学 体系 的 量 测 值 与 体系 的 状态 之 间 建 立 联系 的 学 科 。 它 应 用 数学 、 
统计 学 与 其 他 方法 和 手段 〈 包 括 计 算 机 ) 选择 最 优 试验 设计 和 量 测 方法 ， 并 通过 对 量 测 数据 
的 处 理 和 解析 ， 最 大 限度 地 获取 有 关 物 质 系 统 的 成 分 、 结 构 及 其 他 相关 信息 。 

化 学 计量 学 是 瑞典 Umea 大 学 S. RKE (S. Wold) 在 1971 年 首先 提出 来 的 。1974 年 
美国 B. R. 科 瓦 斯 基 和 沃 尔 德 共同 倡议 成 立 了 国际 化 学 计量 学 学 会 。 化 学 计量 学 在 20 世纪 
80 年 代 有 了 较 大 的 发 展 ， 各 种 新 的 化 学 计量 学 算法 的 基础 及 应 用 研究 取得 了 长 足 的 进步 ， 
成 为 化 学 与 分 析 化 学 发 展 的 重要 前 沿 领域 。 它 的 兴起 有 力 地 推动 了 化 学 和 分 析 化 学 的 发 展 ， 
为 分 析 化 学 工作 者 优化 试验 设计 和 量 测 方法 、 科 学 处 理 和 解析 数据 并 从 中 提取 有 用 信息 ， 开 
拓 了 新 的 思路 ， 提 供 了 新 的 手段 。 进 入 新 世纪 后 ， 化 学 计量 学 受 不 断 涌现 的 现代 分 析 仪 器 发 
展 使 用 和 复杂 体系 定性 定量 分 析 问 题 的 促进 驱动 ， 又 获得 新 的 进展 ， 如 形成 了 “数学 分 离 分 
析 ” 这 一 绿色 分 析 化 学 新 思路 ， 较 系统 地 发 展 完善 了 化 学 多 维 校正 理论 及 其 在 分 析 领 域 的 新 
应 用 ， 目 前 正在 获得 越 来 越 广泛 的 关注 和 应 用 等 。 

化 学 计量 学 的 基本 任务 是 研究 有 关 化 学 量 测 的 基础 理论 与 方法 学 ， 其 应 用 数学 、 统 计 学 
与 信息 理论 和 方法 、 计 算 机 科学 的 方法 和 手段 ， 科 学 地 设计 化 学 实验 ,选择 最 优 的 量 测 方 
法 ， 最 有 效 地 获取 体系 有 用 的 特征 数据 ， 并 通过 解析 量 测 数据 最 大 限度 地 从 中 提取 有 关 物 质 
的 定性 、 定 量 、 形 态 、 结 构 等 信息 。 化 学 计量 学 是 一 门 正 在 发 展 的 新 兴学 科 ， 其 主要 研究 内 
容 包括 统计 学 与 统计 方法 、 校 正 理论 、 模 型 估计 和 参数 估计 、 实 验 设 计 和 优化 方法 、 分 析 信 
号 处 理 、 化 学 模式 识别 、 定 量 构 效 关系 、 人 工 智 能 和 专家 系统 、 软 件 和 库 检 索 等 。 

《化 学 计量 学 》 分 册 的 修 编 将 继续 按照 分 析 化 学 全 过 程 而 展开 ， 从 选择 分 析 方法 和 采样 
开始 ， 经 化 学 量 测 的 实验 设计 、 信 和 号 预 处 理 、 定 性 定量 分 析 的 多 元 校正 和 多 元 分 辨 ,再 到 有 
用 决策 信号 的 提取 ， 包 括 化 学 模式 识别 、 机 理 研 究 数字 模拟 方法 、 化 学 定量 构 效 关系 研究 直 
至 人 工 智 能 及 专家 系统 等 ， 试 图 覆盖 化 学 计量 学 的 全 部 内 容 ， 在 讨论 化 学 计量 学 基本 概念 和 







































































































































































基本 方法 的 数学 定义 、 基 本 思路 和 算法 的 基础 上 上， 尽量 同时 给 出 计算 机 程序 及 相应 的 参考 文 
献 ， 使 读者 有 所 收获 ， 并 可 进一步 用 于 具体 实际 问题 的 解决 。 

在 第 三 版 中 ,《 化 学 计量 学 》 分 册 基 本 保持 第 二 版 的 结构 框架 ， 对 具体 内 容 有 较 大 幅度 
的 增删 ， 做 了 较 多 的 重组 、 充 实 和 改进 等 。 已 删除 第 二 版 中 第 二 章 ， 将 相关 内 容 充 实 于 相应 
的 章节 。 新 版 的 第 二 、 三 、 四 章 分 别 作 为 采样 、 实 验 优化 设计 以 及 量 测 数据 的 统计 评价 与 质 
量 控制 专 章 ， 其 中 第 二 版 第 五 章 第 一 节 与 第 二 节 的 内 容 ， 已 扩 增 为 新 版 的 第 四 章 ， 并 突出 摘 
述 了 化 学 量 测 与 质量 控制 的 关系 等 。 新 版 第 五 章 新 增 了 分 析 信 和 号 的 “背景 扣除 方法 ”及 “ 漂 
移 校 准 方法 ”两 节 。 第 六 章 在 第 二 版 第 六 章 基 础 上 有 较 大 幅度 的 扩 增 ， 尤 其 是 对 灰色 分 析 系 
统 来 说 ， 新 增 了 分 量 较 重 的 二 阶 校正 及 三 阶 校正 等 内 容 ， 包 括 新 增 了 其 相应 的 理论 、 方 法 、 
算法 以 及 应 用 实例 等 ， 通 过 引入 “数学 分 离 分 析 ” 这 一 绿色 分 析 化 学 思路 ， 已 真正 实现 复杂 
化 学 体系 多 目标 物 的 同时 、 人 快速 、 精 准 之 定量 分 析 。 第 七 章 新 增 了 “基于 机 器 学 习 的 分 类 回 
归 方 法 ”一 节 。 第 八 章 为 新 增 的 “计算 机 数字 模拟 方法 ”， 第 九 章 也 对 原 化 学 构 效 CASAR) 
研究 方法 一 章 作 了 较 大 幅度 的 增补 ， 尤 其 是 三 维 模型 等 内 容 的 添加 ， 更 有 利于 QSAR 研究 
的 深入 开展 。 附 录 部 分 内 容 较为 丰富 ， 除 了 化 学 计量 学 中 常用 名 字 的 中 英文 对 照 表 和 符号 说 
明 外 ， 还 将 第 二 版 第 二 篇 内 容 〈 第 十 二 、 十 三 、 十 四 、 十 五 章 共 四 章 ) 进行 整合 ， 同 时 新 增 
加 了 不 少 新 方法 的 MATLAB 源 程序 。 

第 二 版 中 《化 学 计量 学 》 分 册 由 梁 逸 曾 和 俞 汝 勤 担 任 主编 ， 第 三 版 中 分 册 主 编 增 添 了 吴 
海龙 。 梁 逸 曾 为 本 手册 的 编写 ， 精 心 组 织 、 哎 心 沥 血 多 年 ， 可 不 幸 于 2016 ^E 10 H 19 日 过 
劳 且 患 不 治之 症 仙 逝 ， 留 下 遗憾 。 在 本 版 前 期 编著 过 程 中 ， 深 逸 兽 从 编著 大 纲 的 修订 到 各 章 
节 的 具体 编著 ,倾注 了 大 量 的 心血 ， 完 成 了 其 中 大 部 分 的 工作 量 。 这 里 ， 除 了 原先 得 到 杜 一 
平 、 李 晓 宁 、 徐 承建 、 许 青松 、 李 博 彦 等 同志 的 帮助 外 ， 还 得 到 了 曹 东升、 李 洪 东 、 范 伟 、 
张 良 晓 、 张 志 敏 、 卢 红 梅 、 易 伦 彰 、 曾 仲 达 、 约 范 等 同志 的 帮助 和 协力 ， 湖 南大 学 的 部 分 博 
士 生 和 硕士 生 胡 勇 、 方 焕 、 刘 志 、 谢 丽 起 、 万 瑶 、 和 尹 小 丽 、 谷 惠 文 、 丁 玉 洁 、 张 燕 、 张 晓 
华 、 刘 亚 娟 、 夏 慧 、 朱 丽 、 王 丽 、 孙 小 东 、 王 童 、 肖 芍 等 也 付出 了 很 多 心血 ， 谭 在 此 一 并 表 
GRE! 吴 海 龙 继 承 梁 逸 兽 教 授 遗 志 ， 不 辱 使 命 ， 与 出 版 社 编辑 紧密 合作 ， 终 于 完成 
本 版 的 编著 。 俞 汝 勤 先 生 从 一 开始 就 高 度 重 视 本 版 的 编著 ， 从 大 纲 制订 到 具体 内 容 的 取信 都 
亲自 把 关 ， 倾注 了 大 量 心血 。 本 分 册 第 三 版 的 出 版 ， 是 对 我 国 著名 分 析 化 学 与 化 学 计量 学 
家 、 国 际 “ 化 学 计量 学 终身 成 就 奖 获 得 者 ” 梁 逸 曾 教授 的 最 好 纪念 ! 

本 分 册 涉及 的 相关 科研 成 果 ， 主 要 取 自 湖南 大 学 化 学 生物 传 感 与 计量 学 国家 重点 实验 室 
和 中 南大 学 梁 逸 曾 课题 组 。 这 些 成 果 的 取得 多 年 来 曾 得 到 了 国家 自然 科学 基金 委员 会 、 国 家 
科学 技术 部 和 教育 部 、 湖 南 省 科学 技术 厅 和 教育 厅 以 及 湖南 大 学 、 中 南大 学 的 大 力 支 持 和 帮 
助 。 说 在 此 ， 一 并 表示 衷心 的 感谢 ! 

尽管 我 们 在 编著 过 程 中 尽 了 最 大 努力 ， 希望 能 以 最 佳 状态 呈现 在 广大 读者 面前 ,但 由 于 
知识 面 及 能 力 的 限制 ， 书 中 一 定 会 有 许多 不 足 之 处 ， 有 奶 请 批评 指正 。 
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第 一 节 ”化 学 量 测 与 化 学 信息 


近年 来 随 着 计算 机 ， 特 别 是 微型 计算 机 大 量 进 入 化 学 特别 是 分 析 化 学 实验 室 ， 一 门 新 的 
化 学 分 文学 科 一 一 化 学 计量 学 应 运 而 生 ， 为 有 效 进行 化 学 量 测 和 提供 化 学 信息 开辟 了 新 通 
路 ， 为 分 析 化 学 的 发 展 提供 了 新 机 遇 。 化 学 计量 学 是 一 门 交 义学 科 ， 它 应 用 数学 、 统 计 学 与 
计算 机 科学 的 工具 和 手段 及 其 最 新 成 果 来 设计 引 




















或 选择 最 优化 学 量 测 方法 ， 并 通过 解析 化 学 量 
测 数据 以 最 大 限度 地 获取 化 学 及 其 相关 信息 ， 自 然 ， 它 首先 就 在 分 析 化 学 中 得 到 了 普遍 认 
同 。 自 20 世纪 70 年 代 中 期 诞生 以 来 ,在 80 年 代 得 到 长 足 发 展 ， 至 今 已 日 趋 成 熟 。 现 在 ， 
让 我 们 来 看 看 化 学 计量 学 与 分 析 化 学 作为 一 门 化 学 量 测 和 化 学 信息 学 科 之 间 的 关系 。 

从 图 1-1 可 以 看 出 ， 对 于 化 学 量 测 的 每 一 步 ， 化 学 计量 学 都 有 相应 的 理论 和 方法 学 ， 研 
究 如 何 来 使 化 学 量 测 和 数据 解析 过 程 变 得 更 有 效 ， 实 质 上 ， 化 学 计量 学 就 是 一 门 关 于 化 学 量 
测 的 理论 基础 和 方法 学 的 化 学 分 支 学 科 [ 。 
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测 流程 与 化 学 计量 学 方法 的 关系 示意 图 


hu 


BD 化 学 








分 析 化 学 作为 一 门 化 学 量 测 和 化 学 信息 学 科 ， 对 其 量 测 过 程 的 有 效 性 及 效率 的 估计 和 评 
价 就 显得 十 分 重要 了 。 分 析 信 息 理论 从 信息 理论 的 角度 来 研究 化 学 量 测 过 程 。 如 果 将 通信 信 
息 处 理 的 过 程 与 化 学 分 析 中 的 化 学 量 测 过 程 来 进行 比较 ， 就 可 容易 发 现 这 两 个 过 程 十 分 相似 
(参见 图 1-2) 02, 
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1-2 通信 信息 处 理 过 程 与 化 学 量 测 过 程 的 比较 
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实际 上 ， 进 行 化 学 量 测 的 目的 本 质 上 就 在 于 消除 或 减少 被 量 测 的 化 学 系统 在 化 学 成 分 、 
结构 及 其 他 相关 信息 的 “不 确定 度 ”。 分 析 信息 理论 和 方法 可 提供 相应 的 概念 和 方法 来 定量 
表征 化 学 量 测 系统 的 “不 确定 度 ” 及 化 学 量 测 过 程 中 体系 之 “不 确定 度 ” 的 消除 或 减少 的 定 
量度 量 〈 或 称 为 化 学 量 测 过 程 的 信息 量 之 获取 )。 它 不 但 可 以 对 不 同 的 分 析 过 程 ， 如 分 离 、 
定性 鉴定 、 定 量 测定 等 进行 信息 理论 分 析 ， 还 可 对 现代 分 析 化 学 中 各 类 复杂 分 析 仪 器 的 提供 
信息 之 能 力 进 行 合理 评价 ， 为 分 析 化 学 量 测 提供 了 一 套 选 择 不 同 分 析 过 程 或 不 同 分 析 仪 器 的 
理论 基础 和 具体 定量 方法 。 本 章 将 系统 地 介绍 这 些 概念 和 方法 。 


BP M—F SRM APEE” put nr 
































一 、 分 析 试 验 与 “不 确定 度 ” 


分 析 工 作 的 目的 是 取得 有 关 未 知 试 样 的 化 学 成 分 与 结构 的 相关 信息 。 所 以 ， 在 进行 分 析 
测试 之 前 ， 必 然 存 在 某 种 不 确定 性 或 称 “ 不 确定 度 ”。 设 有 一 份 试 样 ， 其 中 可 能 含有 A 种 离 
子 中 的 某 一 种 ， 定 性 分 析 的 任务 就 是 确定 这 一 离子 是 何 种 离子 。 在 分 析 测 试 之 前 ， 存 在 有 k 
种 可 能 性 ,或 者 称 分 析 实 验 有 个 可 能 的 结局 。 如 将 上 述 情况 用 数学 式 表示 ， 并 设 上 述 
种 可 能 结局 为 cl ，as，…，ah， 发 生 这 & 种 可 能 结局 的 概率 为 P1，P。，…，P， 则 有 





























ais Q2* "s CQ 


Prs Pas me P, 


AF, A 表示 发 生 上 述 定性 分 析 实 验 的 一 个 事件 。 如 果 存 在 有 两 个 不 同 定性 分 析 实 验 
的 事件 ， 分 别 记 为 Al 和 A:， 并 由 以 下 的 两 个 数 表 表示 出 ， 即 





Qi» os ttt. Q} Qs ü»* Uv, 05 


Ai— = 
1, 0, 70 1/k, l/k, "s, 1/k 


很 明显 ， 因 为 对 于 事件 A1， 它 发 生 的 可 能 性 实际 上 只 有 一 种 ， 即 只 可 能 发 生 ai， 而 发 生 
az, t. a, 的 概率 都 等 于 零 ， 所 以 ， 此 事件 的 “不 确定 度 ” 实 际 上 不 存在 ， 如 果 存 在 这 样 
一 种 “不 确定 度 ” 的 定量 度量 标准 的 话 ， 对 于 事件 A1 ， 其 值 应 为 零 ; 然而 ， 对 于 事件 As. 
它 发 生 的 可 能 性 就 有 种 ， 即 发 生 al，as，…，ai 的 概率 都 相等 ， 故 此 事件 的 “不 确定 度 ” 
很 大 ， 如 存在 一 种 “不 确定 度 ” 的 度量 标准 的 话 ， 对 于 事件 A. ， 其 值 应 该 很 大 或 至 少 要 大 
于 零 。 以 下 将 要 讨论 的 炉 的 概念 ， 就 是 这 样 “不 确定 度 ” 的 一 种 定量 度量 。 


Z, “RER” 51RA 
I PAEDR AR, Ml NEA RE CAT: 




































































k 
H —— MjPilogP; (1-1) 


i=] 





仙 农 给 出 了 上 述 定义 并 称 H HR. log 一 般 表 示 以 e WIE, ieat EL A 4 5 0r D a 
(nat); 如 果 以 10 为 底 ， 其 单位 为 的 特 (dio; 以 2 为 底 ， 其 单位 为 比特 (bit)。 从 上 式 可 
知 ， 如 对 前 述 的 两 个 实例 ,用 式 (1-1) 计算 可 得 


H(CA1) ——1logl —0 
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H(A2s)=— >, /k)log/k) ——logC 1/5) =log(k) 
从 上 述 结果 明显 可 知 ， 事 件 A 的 不 确定 度 大 于 事件 Al 的 不 确定 度 。 
m. dx BS ER 
(D 非 负 性 ， 即 








H(Pi1, Ps. tts P,) 20 


这 是 因为 Pj;(i = 二 1,2,…,k) 为 概率 ， 故 有 12 P;20. BELL log(P;) 不 可 能 取 正 值 ， 即 
(一 之 PilogP;) 才 取 正 值 。 
(2) IFEF, RANE. B 

H(1. 0, tts. 0) —0 
所 谓 确定 性 事件 ， 即 为 该 事件 只 有 一 种 可 能 结果 ， 如 用 数学 语言 表达 则 为 ， 对 于 发 生 某 一 可 
能 结果 的 概率 为 1， 而 发 生 其 他 可 能 结果 的 概率 都 为 零 。 前 面 讨 论 的 事件 A1 就 是 确定 性 导 
件 的 一 个 例子 。 注 意 在 此 实际 上 是 引入 了 一 个 人 为 的 假设 ， 即 

lim (— PlogP) —0 (1-2) 


P-—0 
Xp. P 为 一 表示 概率 的 实数 。 
引入 这 一 假设 是 因为 log(0) 在 数学 上 为 一 无 意义 的 数 。 可 是 ， 如 从 极限 的 角度 来 看 ， 
引入 式 (1-2) 在 数学 上 是 完全 合理 的 。 如 假设 已 =1/e" ， 此 时 


— logP —n 














4ü 








而 

— PlogP —n/e" 一 0 (1-3) 
MEn 的 增 大 ，n/e" 将 很 快 接近 于 零 。 实 际 上 因为 此 时 己 是 一 个 比 (一 IlogP ) 更 高 阶 的 无 穷 
小 ， 所 以 上 式 实 际 上 是 用 极限 的 概念 来 避免 对 log(0) 的 直接 计算 。 有 了 式 A-3) 的 定义 ， 
所 以 有 


























H, 0, =, 0) = 一 llog(1) 一 2)0log0 —— Ilog(1) —0 
(3) XLDPTARHESEZSRHUSepR. HARK. BU 
HCCP, P2 se POEHC(/R ,1/k ,"** ,1/k)=log(k) (1-4) 























所 谓 等 概率 结果 的 事件 ， 即 该 事件 有 种 可 能 结果 ， MEH, 发生 这 种 结果 的 概率 都 相等 
即 发 生 某 一 可 能 结果 的 概率 都 为 (1/&)。 由 此 性 质 可 知 ， 等 概率 结果 的 事件 的 不 确定 度 
最 大 。 


V]. giS ur ERE 
今 考察 两 个 随机 试验 A 与 B， 其 可 能 结果 为 
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n m 


Hnn (AB) —— >) > P(A;B;)log[P(A;B;)] (1-5) 


i 一 17 一 1 


AKTE BUE SC. 如 果 试 验 A 出 现 结果 A, 时 ,试验 BERE POR S 




















H n (BIA,2— —XP(G,;|A4)DlogLPCGB;lA4)2] 
相对 应 也 可 定义 试验 B 出 现 结果 B, 时 ,试验 A TENER TE F BS 
H, (AlB) — — X P(G,;|B;)logLP CA;| B42] 
更 进一步 ， 还 可 定义 在 进行 试验 A 的 前 提 下 试验 B B2 FEAR 
H(B| A0) — XQPCGA,)0H,,CBlA4) 
—XP(G.,[-—2XPCG;|A;logLP Gi ;lA4)2] 


=— XX P(A)P(B:|A})log[P (B;:lA})] 


或 在 进行 试验 B 的 前 提 下 试验 A AER 
H(A|B)— — XXP(GOjOPCGA,| Bog [ PCGA; | Bi ] (1-6) 
A VERBA PEJE : 
@ HTA]B)—HaatABI — H „ (B) 


H (B | A) = H n.m (AB) m H, (A) 


此 性 质 可 由 积 事 件 ( 即 同时 发 生 的 事件 ) 的 概率 公式 〈 参 阅 第 十 一 章 ) 直接 导出 。 





Q H(A|B)<H,'(A) 
HB| A) <S H4CB) 


此 性 质 的 证 明 可 参阅 文献 [2]. 

© 如 果 随 机 试验 A 与 B 相互 独立 ， 此 时 PCA |B)=PCA) (参阅 第 十 一 章 ) ， 亦 即 分 析 
试验 B 与 待 解决 的 分 析 课 题 (试验 A) 毫 不 相干 ， 当 然 做 试验 B 将 得 不 到 试验 A 的 任何 信 
息 ， 也 无 从 减少 关于 试验 A 的 “不 确定 度 ”。 此 时 ， 有 


H,,n (AB)=H,(A)+H,(B) (1-7) 





五 、 可 疑 度 、 互 信息 与 散 度 


可 疑 度 的 定义 : 从 条 件 炉 的 定义 可 知 , H CA | E). 实际 表述 了 在 进行 了 试验 B 以 后 的 试 
验 A 的 “不 确定 度 ”， 所 以 , HCA | Po 又 称 为 可 疑 度 。 这 样 定义 的 可 疑 度 ， 实 际 上 可 以 说 是 
反映 了 分 析 仪 需 或 方法 提供 信息 的 能 力 与 解决 给 定 分 析 课 题 的 需要 之 间 的 差距 的 定量 度量 。 
互信 息 的 定义 : 








I(A;B)=H,(A)— H,CA| D —H,(OB) — H,(B| A —ICBiAD (1-8) 
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RH, I(A;B) 称 为 B 关 于 A 的 互信 息 , 或 1(B;A) 称 为 A 关 于 也 的 互信 息 。 同 时 ， 式 
(1-8) 也 可 称 为 信息 守恒 定律 或 信息 平衡 原理 。 

散 度 或 卡尔 贝克 (Kullback) 信息 量 的 定义 : 

RA P., Q 两 个 概率 分 布 ， 

验 前 分 布 P: (Pi, Poo cs. Pa), 3P;—1 

验 后 分 布 Q: (Qi Qz; s Qun) XQi;-1 

当 分 布 P 被 分 布 Q 取代 时 ， 散 度 或 卡尔 贝克 (Kullback) 信息 量 定义 为 


I(Q //P) = 31Qilog(QQ; /Pi) (1-9) 
类 似 地 可 给 出 连续 变量 的 散 度 或 卡尔 贝克 信息 量 的 定义 : 























I(Q //P) = [QGotestQ Go/P Goa: (1-10) 


第 三 节 ”定性 分 析 的 信息 理论 和 方法 


定性 分 析 作 为 分 析 工 作 的 重要 组 成 部 分 ， 提 供 的 是 关于 物质 成 分 、 结 构 特 征 方面 的 化 学 
信息 ， 回 答 的 是 “是 什么 ?” 这 一 问题 。 在 这 一 节 将 就 有 关 定 性 鉴定 方法 的 信息 量 评价 方法 、 
色谱 及 色谱 分 离 方 法 实验 调 优 的 信息 理论 和 方法 、 质 谱 及 红外 光谱 的 编码 与 检索 的 信息 理论 
和 方法 等 方面 来 分 别 加 以 介绍 。 


一 、 不 同 定性 分 析 鉴 定 方法 的 信息 量 估价 


在 定性 分 析 鉴 定 方法 的 信息 量 估 价 中 ， 一 般 可 分 为 两 种 不 同 的 方法 ， 一 种 是 针对 一 具体 
定性 实验 而 言 ， 以 实验 前 的 结果 “不 确定 度 ” 与 实验 后 的 结果 “不 确定 度 ” 之 差别 来 估价 此 
定性 实验 的 信息 量 ， 亦 即 用 前 节 所 讨论 的 实验 前 与 实验 后 的 炉 之 差 来 估价 实验 的 信息 量 ， 这 
样 的 信息 量 估 价 可 包括 以 下 几 种 情况 。 

《一 ) 结构 定性 分 析 的 信息 量 

关于 结构 分 析 的 结果 之 信息 量 计 算 十 分 简单 。 结 构 分 析 过 程 可 用 图 1-3 表示 出 。 




























































































i2,-,m 分 析 仪 器 j=1,2, n 
Term 分 析 方 法 SDP 








LI 医 恒 ”结构 分 析 过 程 信息 变化 示意 图 





作为 分 析 仪 器 或 方法 的 输入 ， 可 以 是 m 个 等 概率 的 可 能 化 学 结构 。 而 分 析 仪 器 或 分 析 
方法 的 输出 ， 可 能 给 出 ”种 尚 不 能 分 辩 的 结构 。 每 种 结构 的 验 后 概率 一 般 是 不 相等 的 。 结 
构 分 析 提 供 的 信息 量 可 按 下 式 来 进行 计算 。 

ICA//BD —HGO 一 五 (CB) 


式 中 ，A 表示 试验 前 可 能 存在 不 同化 学 结构 的 事件 ; B 表示 进行 了 分 析 仪 器 或 分 析 方法 
试验 后 可 能 存在 不 同化 学 结构 的 事件 ; 而 I(A/B) 则 表示 在 进行 了 分 析 仪器 或 分 析 方 法 的 试 
验 B 后 所 获得 的 信息 量 。 很 明显 ,进行 了 分 析 仪 器 或 分 析 方 法 的 试验 B 后 所 获得 的 信息 量 
MH A, BWER “AMER”, MALAE, 
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分 析 前 : 
PoG) —1/m G 王 1，2，…，710) 
H CP9) —InCm) 
分 析 后 : 


PGO-P; G-L2.-.0) 


H(P)=— X P;In(P;) 
j=1 





I(A//B. - HCA) HOD —InGi) + ZP jlnCP;) 
如 假定 实验 后 各 可 能 结构 均 为 等 概率 ， 则 
ICA /B) —InC€m /n) (1-11) 


此 时 I(AWB) 与 卡尔 贝克 信息 量 定 义 完全 一 致 。 

(二 ) 定性 化 学 反应 分 析 的 信息 量 

设 有 一 纯 溶 液 ， 它 可 能 是 下 述 离子 之 一 的 试 液 : Ag+ 、Pb+ 、Al3+ 、Zn2+ Na* 或 
K+ 。 今 用 经 典 定性 分 析 方 法 进行 分 离 鉴定 。 设 加 入 试剂 盐酸 ， 如 何 估 算 正 反应 (发 生 沉 
淀 ) 及 无 反应 时 的 信息 量 []? 

正 反 应 (发 生 沉 淀 ) 时 ， 因 在 这 6 种 离子 中 可 与 盐酸 产生 白色 沉淀 的 只 可 能 是 Ag 和 
Pb?+ ， 所 以 ， 经 此 反应 后 ， 可 能 离子 的 范围 从 6 种 变 成 了 2 种 ， 根 据 式 ICA VB) = 
InCn /n) ， 可 得 其 化 学 反应 过 程 所 得 的 信息 量 为 

I(A//B) - HCÀ) — HCD) —1n(6/2) —1In3(nat) 


无 反应 时 ， 因 在 这 6 种 离子 中 不 与 盐酸 产生 白色 沉淀 的 可 能 为 ABE, Zn? t, Nat 或 
K* 中 任何 一 种 。 所 以 ， 经 此 反应 后 ， 可 能 离子 的 范围 从 6 种 变 成 了 4 种， 根据 式 T(AV B) = 
InGn /n) ， 其 化 学 反应 过 程 所 得 信息 量 为 
T(AVWB) —1n(6/4) —1nl. 5(nat) 


(三 ) 测定 物理 常数 鉴定 有 机 化 合 物 
测定 熔点 、 沸 点 、 折 射 率 、 密 度 等 物理 性 质 常 用 于 有 机 化 合 物 的 鉴定 。 今 试 以 纯 物 质 的 
熔点 测定 为 例 ， 来 考察 基 次 物理 常数 测定 所 获得 的 信息 量 。 设 所 测 物质 在 分 析 之 前 就 已 知 应 
是 属于 在 温度 为 100 一 2005 的 一 种 物质 ， 又 已 知 在 此 温度 范围 之 内 可 能 存在 200 种 有 机 化 
合 物 ， 如 进而 设 它们 将 等 概率 分 布 于 此 温度 区 间 ， 则 在 测量 之 前 的 不 确定 度 ， 即 焙 为 
H(A) —1n200Cna 


经 量 测 后 知 ， 其 熔点 为 (000 DC. Ap fe bis BE 6 E c PAL T e (ek 200 种 有 机 化 合 物 
且 它 们 将 等 概率 分 布 于 此 温度 区 间 ， 则 测定 后 的 焙 为 


H (B) =In[ (200/100) X 2] 2In4(nat) 





















































































































































此 实验 的 信息 量 ， 
H(A) 一 五 (B) —1nC200/4) —In50Cnat) 
二 、 仪 器 定性 分 析 的 信息 量 
如 前 所 述 ， 在 定性 分 析 的 信息 量 估 价 中 ， 一 般 可 分 为 两 种 不 同 的 方法 ， 前 一 节 已 经 讨论 
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了 针对 某 一 具体 定性 实验 信息 量 佑 价 方法 ， 亦 即 用 实验 前 与 实验 后 的 炉 之 差 来 估价 实验 的 信 
息 量 ， 在 这 一 节 里 ， 我 们 将 讨论 另 一 种 专门 针对 仪器 定性 分 析 的 信息 量 估 价 方法 ， 这 类 方法 
的 主要 思路 是 直接 估价 仪器 信号 的 焙 ， 亦 即 该 仪器 可 获得 的 信息 量 。 化 学 计量 学 方法 就 是 通 
过 采用 化 学 实验 的 方法 努力 增 大 仪器 分 析 所 能 给 出 的 信息 量 或 是 采用 编码 的 方式 使 得 仪器 分 
析 的 结果 能 尽量 多 给 出 信息 ， 以 达到 用 信息 量 来 作为 目标 函数 ， 从 而 提高 仪器 定性 分 析 的 
(C XE RI EC ES SEES 

18 E (816 55 4C £6 3054) 93: — EVA RERE, I Ted S ES LRCRSR AS RIS Rif mde E 
色谱 分 成 m 个 间距 ， 对 落 入 每 个 间距 的 RI 值 的 个 数 nu 计数 ， 薄 层 色 谱 及 纸 上 色 谱 分 离 与 
定性 鉴定 的 信息 量 可 由 下 式 给 出 [5 : 




































































I —— MG, /n)In(Gi, /n) (1-12) 
k—1 


此 式 是 较 早 将 信息 理论 引入 薄 层 色 谱 的 马 萨 特 (Massart)! 中 所 用 的 式 子 ， 它 的 物理 意 
义 是 很 直观 的 。 如 个 化 合 物 均 落 在 某 个 间距 中 ， 则 此 时 了 为 零 ， 未 获得 如 何 分 离 的 信息 。 
I 值 只 有 在 n 个 化 合 物 均匀 分 布 在 m 个 间距 时 最 大 。 此 信息 量 可 用 作 寻 找 最 佳 展开 试剂 的 目 
ER PR C 

(二 ) 色谱 分 离 鉴 定 的 信息 量 

在 色谱 分 析 中 ， 一 般 是 利用 保留 指数 来 进行 定性 分 析 ， 与 薄 层 色谱 和 纸 色谱 的 不 同 之 处 
是 ， 每 一 个 化 合 物 都 由 一 个 色谱 峰 来 表示 ， 存 在 着 色谱 峰 相 互 重 登 的 问题 。 所 以 ， 色 谱 分 离 
鉴定 的 信息 量 比 起 薄 层 色谱 和 纸 色谱 的 信息 量 计 算 多 了 一 项 。 仿 薄 层 色谱 的 处 理 方法 ， 是 将 
保留 时 间 进 行 区 间 离 散 化 ， 即 划分 为 等 长 (Ay) Hm Bt. 统计 一 定数 量 的 化 合 物 (总 数 为 
n) 的 保留 指数 落 入 不 同 段 的 频数 ， 则 有 


m 


I —— 5, /n)lnG, /n) 十 ln(Ay) — ln /2xec? (1-13) 
k=1 






















































































式 中 , Inay) 为 一 个 常数 ， 所 以 对 于 不 同 的 色谱 柱 ， 此 项 没有 差别 ， 一 般 可 采用 将 Ay 
取 为 1 而 去 掉 。 式 中 的 第 三 项 In V2xeo。 实际 是 来 自前 一 节 所 定义 的 可 疑 度 ， 在 此 表述 了 在 
进行 色谱 分 离 后 的 化 合 物 靠 保 留 指数 来 定性 时 的 “不 确定 度 ”， 即 色谱 峰 的 焙 ， 其 中 ce 为 色 
谱 峰 的 标准 差 。 注 意 ， 此 人 处 假设 了 每 一 种 物质 的 色谱 峰 的 标准 差 都 是 一 样 的 。 由 下 式 定 义 的 
可 疑 度 为 : 














H(A|B)——XAXP(G,)P(G;|Bilog[P CA; |DB4)2] 


式 中 , PB 表示 第 &A 种 化 合 物 出 现 的 概率 ， 在 此 假设 为 等 概率 ， 即 (1/n), P(A; | 
B, 为 第 k 种 化 合 物 在 色谱 仪 中 的 信号 ， 一 般 假 设 为 标准 差 为 ce 的 高 斯 色谱 峰 。 对 此 积 4 
所 得 结果 就 是 一 lnV2xeoe 。 详 细 讨 论 可 参见 文献 [2]。 由 式 (0-120 定义 的 信息 量 标准 ， 
可 用 于 选择 不 同 流动 相 或 色谱 柱 。 

《三 ) 质谱 定性 鉴定 的 信息 原 

质谱 是 20 世纪 出 现 的 分 析 方 法 。 质 谱 仪 的 功能 是 产生 带电 离子 ， 包 括 母 离子 和 原 分 子 
WATER, HATE (m/z) 对 化 合 物 进 行 区 分 , “质谱 ”是 不 同 离子 数目 的 记 
录 ， 每 种 离子 的 相对 数目 对 每 种 化 合 物 〈 包 括 同 分 异 构 体 ) 将 是 特征 的 。 质 谱 仪 能 提供 关于 
有 机 化 合 物 结构 和 固态 试 样 元 素 分 析 的 大 量 信息 。“ 化 合 物 的 质谱 ”包含 大 量 的 离子 碎片 ， 
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且 这 些 碎 片 离子 的 相对 丰 度 时 常 超过 母 离 子 。 分 子 碎片 化 的 独特 性 有 助 于 化 合 物 的 鉴别 工 
作 。 质 谱 鉴定 可 用 不 同 的 方法 进行 。 一 种 是 解析 法 ， 即 研究 与 假设 破碎 模式 ， 并 反 过 来 从 纯 
化 合 物 质谱 中 的 碎片 离子 来 构思 分 子 的 结构 。 男 一 种 办 法 是 检索 ， 即 不 管 质谱 图 的 含义 ， 从 
已 有 的 数据 库 中 检索 。 本 小 节 主 要 讨论 信息 理论 在 质谱 检索 中 的 应 用 。 

利用 质谱 进行 定性 鉴定 ， 首 先 对 其 信号 能 提供 的 信息 量 作 一 粗略 估计 。 设 用 一 低 分 辨 率 
质谱 仪 ， 其 质 荷 比 区 间 仅 为 200 原子 质量 单位 ， 如 用 信息 论 的 观点 就 是 200 个 信道 。 又 设 每 
一 质量 数位 置 我 们 仅 区 别 有 峰 〈 其 编码 为 1) 与 无 峰 (其 编码 为 0)， 使 用 这 种 0-1 编码 时 ， 
每 个 信道 的 最 大 可 提供 的 信息 量 为 一 个 比特 (1bit)， 如 果 做 到 每 个 信道 都 相互 不 相关 ， 则 
这 一 低 分 辨 率 的 质谱 仪 理 论 上 可 提供 200bit 的 信息 量 ， 即 大 约 能 分 辩 22”5 种 不 同化 合 物 ， 这 
个 数目 当然 远 远 大 于 目前 已 知 的 有 机 化 合 物 的 个 数 。 

现 试 从 统计 角度 来 探讨 一 下 将 谱 图 编码 后 ， 互 相 重复 的 可 能 性 。 设 有 个 谱 图 ， 按 0-1 
编码 ， 每 个 谱 图 可 认为 含 n 个 “信道 “"， 即 原子 离子 质量 单位 数 。 在 研究 谱 图 x 与 y 的 重复 
问题 时 ， 可 将 每 一 谱 图 认 作 一 个 向 量 : 






























































x 一 (Z1， X25 t'*s ED 
Y =i yss t Yn) 


向 量 中 的 每 一 元 素 x; 或 y; 的 取 值 只 有 0 或 1， 即 有 峰 时 为 1， 无 峰 时 为 0。 定 义 函 数 
Fi, y) ， 将 编码 重复 的 情况 及 不 重复 的 情况 可 分 别 表述 为 : 


M r;—y;Hb. FO. 了 En 
X r; Æ y: 时 , FG. y) =1 
再 定义 函数 D ， 以 表述 所 有 信道 中 编码 不 重复 数 之 和 ， 














D= FG; yi) 
i=1 


a WEH KA D 的 期 望 值 D 在 信道 ;〈 在 质谱 中 即 为 某 一 质 荷 比 数 ) 出 现 1 的 概率 及 出 现 0 
的 概率 丝 为 0.5 时 可 达 最 大 [2]。 

实际 上 ， 如 从 信息 理论 来 考虑 ， 同 样 可 以 得 出 上 述 结论 。 对 于 质谱 的 0-1 编码 ， 每 个 信 
iB i 的 炉 值 可 由 式 〈1-14) 表示 : 








i (1-14) 
ġ=1 
式 中 , Pi (k= 二 1]，2) 表示 信道 i 在 ” 张 质谱 图 中 出 现 1 CR — 1 时 ) 或 0 (4 二 2 时 ) 的 概 
率 ， 显 然 ， 根据 等 概率 事件 炉 最 大 原理 ， 只 有 当 Pi =0.5 —1. 2) Bb. HIRAK., MR 
谱 的 个 信道 都 相互 不 相关 时 ， 此 时 对 个 质谱 的 0-1 编码 的 总 信息 量 为 














n n 


2. 
H = X, H: = 2, (- 2; PalogPa) =n Chio 


i=] i=] 








但 实际 编码 由 于 各 信道 之 间 存 在 相关 性 ， 上 述 所 得 实际 是 0-1 编码 可 以 得 到 的 极 大 值 ， 将 其 
记 为 及 max。 定 义 实际 可 得 信息 量 Ha 与 最 大 可 得 编码 信息 量 五 aax 之 比 为 编码 效率 (code 
efficiency, CE): 




















CE —CH,/H max) X100% — CH , /n) X 10096 
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在 20 世纪 70 年 代 初期 关于 信息 原理 用 于 质谱 编码 检索 的 早期 论文 中 [67] ， 研 究 了 如 何 
进行 编码 能 提供 最 大 的 信息 ， 而 又 尽 可 能 节省 计算 机 内 存 与 缩短 检索 时 间 等 问题 。 
在 0-1 编码 的 问题 中 ， 需 确定 在 何 种 情况 下 应 定义 信道 i 具有 峰 〈 即 编码 为 1) 。 为 此 需 
确定 一 临界 水 平 值 (TL W). WERKT RET) 此 值 认 作 有 峰 ， 和 否则 认 作 无 峰 。 显 然 ， 
TL 值 如 选择 过 低 ， 则 噪声 信号 亦 可 能 被 认 作 分 析 信 和 号， 在 极端 情况 下 ， 每 一 信道 均 出 现 T, 
信息 量 将 降 至 零 ; 如 TL 值 取得 过 高 ， 则 许多 微弱 强度 的 分 析 信和 号 均 被 认 作为 零 ， 亦 将 损失 
言 息 量 。 以 基 峰 的 0.0126 —0. 326 5 RE TE TL 值 时 ， 信 息 量 是 恒定 的 ， 当 TL 值 上 升 到 约 
1% 以 上 时 ,信息 量 下 降 。 因 TL 值 太 低 易 受 噪声 的 影响 ， 折 中 的 方案 是 取 1%% 的 TL 值 。 当 
然 ， 对 不 同 的 质量 数 取 不 同 的 TL 值 ， 或 通过 调整 TL 值 使 相应 质量 数 的 信息 量 瓦 ; 达到 最 佳 值 。 

TL 值 对 信息 量 有 一 定 的 影响 ， 但 通过 调整 TL 值 来 增 大 信息 量 是 有 限 的 。Pi 值 基本 
上 是 由 质谱 峰 的 自然 分 布 概率 所 决定 的 。 有 的 质量 数位 置 出 现 峰 的 概率 很 小 ， 有 的 Pi 值 则 
较 大 。 减 少 对 计算 机 内 存 要 求 及 增 大 编码 效率 的 办 法 之 一 ， 是 舍弃 Pi 差别 很 大 的 质量 数位 
置 ， 这 对 信息 量 影 响 不 大 ， 但 能 减少 对 内 存 的 要 求 。 更 好 的 办 法 是 在 考虑 到 信道 之 间 相 关 性 
的 基础 上 ， 将 某 些 信道 合并 ， 以 尽量 减少 信道 而 使 信息 量 减 少 不 多 。 如 已 知 质量 数 为 86 的 
P(861) (出 现 有 峰 的 概率 ) 为 0.236， 而 质量 数 为 87 的 PC(871) 为 0.246， 如 将 两 信道 合并 ， 
在 此 两 信道 信号 不 相关 的 条 件 下 ， 可 得 Ps,1 为 0.48。 然 而 ,实际 上 并 非 如 此 。 对 数据 库 进 
行 分 析 可 知 ， 如 在 质量 数 为 86 位 置 出 现 峰 ， 则 有 56% 的 情况 在 质量 数 为 87 处 亦 有 峰 ， 即 
条 件 概率 PC(871 | 861) 二 0.56， 可 见 两 质量 数位 置 (此 两 信道 ) 是 相关 的 。 下 面 就 以 此 例 来 
说 明 两 信道 合并 时 信息 量 的 计算 。 注 意 到 两 信道 合并 后 ， 所 谓 有 峰 (编码 为 1) 的 情况 包括 
以 下 三 种 情况 : 四 在 质量 数 为 86 位 置 出 现 峰 ， 且 在 质量 数 为 87 4t Alk; OEREN 
86 位 置 出 现 峰 ， 但 在 质量 数 为 87 处 无 峰 ; @ 在 质量 数 为 86 位 置 无 峰 ， 但 在 质量 数 为 87 处 
有 峰 。 所 以 ， 出 现 编码 为 1 的 概率 应 为 


Pa, 1 =P(871, 860) + P(To, 861) + PC871, 861) 

















































































































= P (871 )P (86o | 871) + P (861) P (870 | 861) +P (861)P C87, | 861) 

=P (871 )[1 — P (861 | 871)] + P(861)L1 — P C87, | 861) ] +0. 246 X 0. 56 

= P(G7) (1 — [P (861) P (871 | 861)]/P(871)} +0. 236[1 — 0. 56 ] + 0. 246 X 0. 56 
=P (871) — [P (861)P (871 | 861) ] +0. 236[1 — 0. 56] +0. 246 X 0. 56 

= 0. 246 + 0. 236 — 0. 236 X 0. 56 


— 0. 35 « 0. 48 


可 见 ， 上 例 合 并 两 峰 位 置 得 不 到 出 现 1 的 概率 0. 48。 对 质谱 峰 的 研究 表明 ， 两 质量 数 相差 
1(1H)、2(2H)、13(CH)、14(CH;)、15(CHs)〉 等 数值 时 ， 相 关 关 系 最 为 显著 。 相 关 关 系 
本 身 在 编码 中 可 考虑 作为 压缩 维 数 以 节约 内 存 和 缩短 检索 时 间 的 依据 。 显 然 ， 将 相关 的 质量 
数位 置 合并 损失 有 用 信息 较 少 。 

Wangen 等 [对 有 关 文 献 编辑 的 质谱 图 集 [s] 中 6652 条 低 分 辨 质谱 图 进行 编码 试验 。 这 
些 质 谱系 在 不 同 实验 室 用 不 同 的 电子 艇 击 离子 化 仪器 (30—100eVO 测 得 ， 涉 及 约 5000 种 
不 同 的 化 合 物 ， 即 不 少 化 合 物 在 此 图 集中 存在 不 同 实验 室 测 得 的 互相 重复 的 质谱 。 借 此 可 效 
验 编 码 的 使 用 效果 。 作 者 比较 了 0.1%、1.0%、5.0% 三 种 TL 值 用 于 编码 ， 约 5000 种 化 
合 物 摄制 的 6652 条 质谱 经 编码 后 ， 相 互 重复 的 组 数 见 表 1-1。 由 表 可 见 ，TL 值 由 0.1% 升 
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至 1.0%， 相似 异 构 体 或 相似 化 合 物 给 出 重复 的 质谱 编码 的 情况 并 无 显著 变化 ，1.0% 是 较 
fth TL fü. 


编码 质谱 的 相互 重复 组 数 









































结构 重复 的 化 合 物 特 征 
TL 值 /% 重复 组 数 涉及 谱 图 数 
同一 化 合 物 相似 异 构 体 相似 结构 及 其 他 
0.1 167 370 112 42 14 
1.0 209 451 156 38 15 
5.0 376 836 335 98 43 
K 1-1 涉及 352 个 质量 位 置 。 按 上 述 合并 质量 数位 置 的 办 法 ， 将 原 352 个 质量 数 合并 至 
80 个 ， 并 取 TL 值 为 1%， 在 表 1-1 的 基础 上 增加 的 重复 编码 数 见 表 1-2， 如 利用 相关 关系 




















进一步 合并 一 些 质量 数位 置 ， 使 信道 数 压缩 至 48， 进 一 步 增加 的 重复 编码 质谱 图 数目 亦 列 
于 表 1-2。 从 表 1-2 可 以 看 出 ， 经 压缩 维 数 后 信道 的 编码 效率 (CE W) 增高 。80 信道 的 最 
大 粹 值 为 80bit， 实 际 提供 的 信息 量 为 76. 5bit， 故 编码 效率 为 95.676. 5E 352 维 信道 时 
相 比 ， 虽 然 绝对 信息 量 由 131. 7bit 降 至 76. 5bit， 但 编码 效率 较 原 37. 4% 提 高 很 多 ， 即 能 
有 效 地 利用 有 限 的 计算 机 内 存 。 

上 述 讨论 的 0-1 编码 是 最 简单 的 编码 。 实 际 上 ， 在 某 一 质量 数位 置 有 峰 时 ， 峰 的 强度 还 
包含 有 化 学 信息 。 设 每 一 信道 的 峰 强 度 可 分 成 m 个 阶梯 或 水 平 ， 在 编码 时 应 将 这 部 分 信息 
也 加 以 考虑 。 令 Pi 为 i 信道 的 峰 落 入 k 水 平 的 概率 ， 则 在 各 信道 是 相互 独立 的 情况 下 ， 有 


H, = 5 H; 
i=l 




































































其 中 
H; 一 一 X P alogP i 
k= 

压缩 编码 维 数 对 检索 的 影响 
维 数 80 48 
较 维 数 为 352 时 增加 的 重复 质谱 图 数 51 230 
同一 化 合 物 22 76 
增加 的 重复 谱 图 涉及 的 EE " 
化 合 物 特征 类 似 异 构 体 13 115 
相近 结构 及 其 他 16 60 
新 增 重 复 编码 所 涉及 的 谱 图 数 115 555 
总 信息 量 /bit 76.5 45. 8 
编码 效率 (CE ) / 96 95. 6 95. 4 
Ej 352 维 编码 比较 减少 的 粹 值 /bit 55.2 85.9 






































《四 ) HINOS RE WERE RE BIS RT 

前 节 讨 论 的 关于 质谱 编码 的 信息 原理 ， 对 各 种 电磁 波谱 分 析 原 则 上 均 是 适用 的 。 在 各 种 
电磁 波谱 中 ， 红 外 光谱 是 较 常 用 的 有 机 化 合 物 波谱 鉴定 手段 。 本 节 将 以 红外 光谱 为 例 进行 简 
要 讨论 ， 其 他 电磁 波谱 分 析 可 举一反三 类 推 ， 如 将 前 节 中 的 质量 数位 置 改 为 红外 光谱 的 波 数 
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或 波长 小 区 间 ， 可 对 红外 吸收 光谱 进行 编码 ， 凡 吸收 等 于 或 超过 某 一 约定 的 临界 水 平 TL 值 
者 均 编码 为 “1”， 否 则 为 “0”， 即 得 0-1 编码 ， 如 再 将 吸收 峰 带 强度 划分 为 若干 水 平 ， 则 还 
可 进一步 得 到 更 多 的 化 学 信息 。 

ARLERI fk ERTE X ASTM 红外 光谱 索引 (ASTM Infrared Spectral Index). 中 的 
红外 光谱 数据 库 进行 编码 ， 所 有 文件 包括 了 约 102000 条 红外 光谱 Gk Wyandotte-ASTM 法 
编码 [00 )， 该 文件 是 将 2.0 一 15. 9um 波长 区 域 划分 为 宽度 为 0. lum 的 140 波长 段 ， 在 每 一 
波长 段 ， 如 吸收 强度 超出 选 定 的 TL 值 ， 则 编码 为 1， 否则 编码 为 0。 由 ASTM 文件 编码 
96900 条 红外 光谱 (WL-1)。 如 无 误差 及 相关 关系 的 影响 存在 ，WL-1 文件 的 信息 量 在 选取 
100 个 峰 时 约 50bit。 实 际 由 于 误差 及 相关 关系 的 影响 ， 只 能 达到 20bit 左右 。 当 然 ，20bit 
言 息 量 仍 足以 区 别 108 个 化 合 物 ， 故 其 信息 功能 仍 是 很 强 的 。 红 外 光谱 与 质谱 有 不 同 处 ， 因 
波长 区 段 或 波 数 区 段 的 划分 与 质量 数 相 比 有 任意 性 。 为 了 说 明 波 长 〈 或 波 数 ) 区 段 划 分 的 宽 
度 对 信息 量 的 影响 ， 取 WL-1 文件 的 一 个 子 集 WLS-1 ( 含 5100 条 光谱 ) 进行 扩充 谱 带 “ 窗 ” 
的 试验 。 按 0. lxm“ 窗 ”宽度 编码 后 ， 对 含有 峰 (编码 为 1) 的 波长 段 作 如 下 处 理 : 如 某 一 
波长 区 段 含 有 峰 (编码 为 1 )， 则 将 其 相 邻 的 二 波长 段 亦 赋予 “1”， 即 得 “ 窗 ” 宽 为 0.3um 
的 编码 〈 记 为 WLS-1-3)。 进 而 将 WLS-1-3 文件 再 按 相 同 办 法 扩 “ 窗 ”， 可 得 “ 窗 ” 宽 为 
0. 5pm 文件 (WLS-1-5)。 这 一 扩 窗 步骤 示 于 表 1-3， 对 原 按 0. lum 波长 区 段 编码 的 文件 进 
行 上 述 处 理 后 ， 其 信息 量 将 产生 影响 。 这 种 影响 与 三 个 因素 有 关 : 四 概率 效应 扩 “ 窗 ”后 由 
于 许多 波长 区 段 的 “1” 增 加 ， 即 概率 Pi1 值 增加 ， 信 息 量 一 般 上 升 。 当 然 ，P1 值 增 至 超过 
0.5 以 后 信息 量 又 下 降 。 这 个 因素 可 称 为 概率 效应 。 加 误差 效应 。 误 差 将 使 信息 量 降低 。 随 
着 “ 窗 ” 扩 大 这 一 影响 的 相对 值 将 减弱 。 加 相关 效应 。 扩 “ 窗 ” 肯 定 导 致 相关 关系 的 增加 。 
例如 7 位 置 有 峰 ,，7 一 1 与 了 7 十 1 亦 赋值 “1”。 这 导致 信息 量 降低 。 表 1-4 列举 了 将 WLS-1 的 
窗 扩 至 0.3pm (WLS-1-3) X 0. 5pm (WLS-1-5) 的 信息 量 较 WLS-1 发 生 的 变化 。“ 十 ” 代 
表 信 息 量 增 加 ,“ 一 ”代表 减少 。 对 WLS-1 本 身 而 言 ， 也 存在 误差 与 相关 关系 对 信息 量 的 影 
响 ， 在 表 中 列 出 以 资 比较 。 总 的 说 来 ， 将 光谱 编码 的 “ 窗 ” 适 当 扩 充 ， 例 如 由 0. lym 扩 至 
0. 3xm， 对 增加 信息 量 是 有 利 的 。 


LEE) 红外 光谱 编码 的 扩 “ 窗 ”步骤 示例 





































































































峰 位 置 
文件 名 “ 窗 ” 宽 /um 
J 二 这 jj j jt1 TTZ j^3 了 十 4 
WSL-1 0.1 0 0 1 0 1 0 0 
WSL-1-3 0.3 0 1 1 1 1 1 0 
WSL-1-5 0.5 1 1 1 1 1 1 1 
5x 圣 BB 红外 光谱 编码 信息 量 与 “ 窗 ” 宽 的 关系 单位 : bit 
影响 因素 WLS-1 WSL-1-3 WSL-1-5 
概率 效应 (十 ) = 22.6 8.3 
误差 效应 (一 ) 26.5 12. 3 6. 1 
相关 效应 (一 ) 6.1 20.7 14. 0 
总 效应 十 8.0 十 0.4 





对 于 WL-1 文件 ， 当 取 全 部 140 信道 编码 时 ， 其 编码 效率 为 15%; 择优 选 出 93 信道 的 
编码 效率 增 至 23%。 假 如 无 误差 存在 ， 则 140 信道 的 效率 为 41%，93 信道 的 效率 为 51%。 
可 见 ， 误 差 效 应 对 信息 量 有 重大 影响 。 扩 “ 窗 ” 能 提高 编码 效率 。 例 如 ， 对 优选 的 信道 ， 当 
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WLS-1 的 编码 效率 为 24% 时 ， 扩 至 WLS-1-3 编码 效率 为 41%， 扩 至 WLS-1-5 编码 效率 
为 46%。 

在 记录 用 于 编码 检索 的 红外 光谱 时 ， 应 固定 实验 操作 条 件 ， 例 如 先 将 整个 光谱 区 的 基线 
HE (95 士 2)%T( 透 光 率 )， 继 而 将 最 强 的 谱 ibo: (52:20 96 T ÆR cv EE RED, 
不 时 校正 波长 表 度 ， 对 所 用 化 合 物 进 行 严格 提纯 精制 ， 峰 强度 取 最 高 峰 处 的 透 光 率 与 基线 的 
差 值 ， 峰 强度 低 于 一 定 TL 值 时 编码 为 0， 和 否则 为 1。 ic 值 较 高 时 ， 出 现 的 “0” 增 加 ， 使 
有 用 的 可 供 选 用 的 信道 数 下 降 。 文 献 L11] 采 用 了 396. 525. 1096 =P TL 进行 比较 ， 不 同 
TL 值 选 出 的 有 用 信道 数 及 信息 量 列 于 表 1-5 和 表 1-6。 表 1-5 是 将 波 数 (wave number. 
WN) 由 4000cm 1 起 按 每 25cm ! Jy — Ez H5] 4 2g 140 Et ( 称 WN- 码 )， 表 1-6 是 将 波长 
(wave length, WL) 由 2. 0pm 起 按 每 0. lum 波长 为 一 段 分 为 140 Et ( 称 WL- 码 )。 误 差 项 
的 影响 与 TL 值 有 关 ， 在 将 最 强 带 调整 至 5% 时 ， 若 有 1%T 的 误差 ， 则 在 近 TL 值 处 造成 
的 误差 当 TL 值 为 3% 时 等 于 0.2596 T . 4 TL 值 为 10% 时 等 于 0.7% 耳 ， 作 和 较 坏 估计 ， 取 
TL 值 为 3% 时 ， 由 此 造成 的 信息 量 下 降 为 0.03bit。 男 一 项 可 能 的 误差 是 记录 峰值 的 实验 误 
3i. Xp WL- 码 ， 在 长 波长 区 这 一 误差 将 较 显 著 ， 故 WN- 码 的 可 靠 性 较 高 。 光 谱 区 间 划 分 按 
WIL- 码 在 3500—2500em :区域 峰 数目 较 少 ， 这 是 由 于 在 这 一 区 域 将 两 个 或 两 个 以 上 的 峰 编 
Ds 个 “1”， 而 用 WN- 码 则 可 免 此 次 ， 故 WL- 码 的 信息 量 一 般 很 低 。 对 较 高 波 数 区 ， 则 

可 能 出 现 相反 情况 ,但 考虑 到 相关 关系 等 因素 ， 总 的 说 来 WN- 码 的 信息 量 较 大 ， 故 选择 
o 

















































































































TL 值 对 WN- 码 信息 量 的 影响 单位 : bit 
TL=3% TL=5% TL=10% 
数据 集 ? 
EHE 信道 数 信息 量 信道 数 信息 量 信道 数 
CHS-WN 15.1 26 3.4 22 7.5 14 
CHU-WN 31.5 AT 29.7 42 24.9 35 
CH-WN 32.8 58 8.8 19 25.0 47 
ALC-WN 28.7 45 28.7 44 28.5 45 
ETH-WN 17.5 21 5.0 17 22.2 34 
CARB-WN 18.5 28 15.4 26 14.9 25 
A-WN 41. 3 73 39. 9 65 36.5 61 
CHS 一 饱和 烃 ;CHU 一 不 饱和 烃 ; CH 一 饱和 烃 及 不 饱和 烃 ;， ALC 一 醇 ，ETH 一 醚 :CARB 一 醛 / 酮 ，A 一 以 上 全 
部 谱 图 。 
TL 值 对 WL- 码 信息 量 的 影响 HR. bit 
TL —396 TL —596 TL —1096 
AERO 
EHE 信道 数 信息 量 信道 数 信息 量 信道 数 
CHS-WL 12.2 25 9. 6 18 5.8 18 
CHU-WL 26.3 15 25.5 50 19.9 34 
CH-WL 28. 2 57 26.1 50 16.9 32 
ALC-WL 24.8 48 24.5 48 24.1 48 
ETH-WL 21.2 35 20.5 36 20.1 36 
CARB-WL -— 一 13.9 21 14.1 23 
A-WL 44. 0 99 42. 6 93 37.1 88 
(D CHS 一 饱和 烃 ; CHU 一 不 饱和 烃 ; CH 一 饱和 烃 及 不 饱和 烃 ;， ALC 一 醇 ，ETH 一 醚 CARB 一 醛 / 酮 ，A 一 以 上 全 





部 谱 图 
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Heite 等 5 研究 了 以 相关 系数 作 指 标 将 峰 位 置 按 数值 分 类 法 分 组 ， 并 以 信息 量 作 指 标 
由 每 组 选 出 炉 值 最 大 的 “信道 ”， 由 此 可 得 到 相互 较 独 立 的 信息 量 较 大 的 红外 峰 位 置 ， 在 此 
基础 上 再 进一步 重新 编码 。 对 5100 个 化 合 物 组 成 的 样本 CASTM 红外 光谱 索引 )， 在 由 140 
个 光谱 分 段 选 出 40 个 编码 时 ，97.7% 的 编码 是 不 重复 的 。Bink 等 03 用 主 成 分 分 析 技 术 研 
究 红 外 光谱 的 结构 相关 模式 ， 用 多 元 线性 回归 分 析 法 分 类 ， 用 可 疑 度 作 为 分 类 时 的 优化 指 
bs. Ritter 等 5 研究 了 互信 息 与 最 大 似 然 分 类 器 分 类 功能 的 关系 。 
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关于 定量 分 析 的 信息 理论 基础 ，Eckschlager 等 曾经 进行 过 较 系 统 的 研究 ， 在 “Coll 
Czechoslov Chem Commun" Zi E AX ANE. Jb TAX [15] m. 





一 、 定 量 测定 的 信息 量 0 
在 进行 定量 测定 之 前 ， 对 被 分 析 试 样 的 成 分 的 浓度 范围 往往 并 非 完 全 一 无 所 知 。 一 般 可 
假设 待 测 组 分 x 的 含量 在 《x1 ,zs》 区 间 内 ， 服 从 均匀 分 布 ， 故 其 验 前 概率 分 布 为 ， 
1 


X27 X] 














Po = 


若 试 样 成 分 的 浓度 范围 不 明确 ， 则 有 zi 二 0%，z, 二 100%， 上 述 假设 仍 成 立 。 

在 完成 定量 分 析 之 后 ， 分 析 结 果 一 般 服 从 正 态 分 布 ， 即 x7 No?) 。 此 处 w 为 试 样 
中 待 测 组 分 含量 的 真 值 ，c? 为 总 体 方差 ， 则 验 后 分 布 P(x) 是 正 态 概率 密度 函数 。 用 散 度 或 
卡尔 贝克 信息 量 的 定义 : 





























ICP //Po) =f” PCz)In[PCz)/PoCz)]dz (1-15) 





为 积分 方便 均 取 自然 对 数 ， 故 其 单位 为 奈 特 (nat)。 对 式 〈1-15) 积分 得 
ICP //P9) —InL Ge; — x1)/(o 4/2ne)] (1-16) 


实际 上 ， 在 完成 定量 分 析 之 后 ， 分 析 结 果 一 般 用 均值 未 表示 ， 则 此 时 可 用 学 生 分 布 来 
代替 正 态 分 布 ， 当 测定 次 数 为 六 ， 分 析 结 果 的 置信 区 间 为 














$c iaa Mn) 
式 中 ， 均 分 差 ，(s 为 o 的 样本 估计 ) 可 由 下 式 求 得 
s=/1/n =) > (z; — z)? 


t, AI EIE BRUM TR. a 为 置信 率 ，g 王 nn 一 1 为 自由 度 。 近 似 地 ， 可 认为 分 析 测 定 后 的 
验 后 分 布 为 











P’(z)=1/[2 i,,, Cs/ vn)] 
由 此 求 得 的 信息 量 为 


ICP' Po) —In[Gez 一 Z1) vn ]/ stag) (1-17) 
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从 式 (1-17) 可 以 看 出 ， 由 学 生 分 布 求 出 的 信息 量 是 一 个 测定 次 数 的 函数 。 一 般 说 来 ,测定 
次 数 的 增加 且 精 密度 高 (测定 次 数 增加 时 ，s 不 增 大 ) 可 增加 定量 分 析 的 信息 量 。 
如 果 分 析 结 果 存 在 系统 误差 $， 即 


=|zx—y| 























在 这 种 情况 下 ,信息 增益 由 下 式 给 出 
ICP: /Po)=I(P/)Po)— ICP: /P) 


式 中 , PoCGo 为 待 测 分 析 物 的 验 前 分 布 , P Ceo 的 意义 同 前 ， 是 服从 N (y,o?) 的 正 态 概 
率 密度 函数 ， 而 P(x) 则 是 服从 NG 十 9,，c2) 的 正 态 概率 密度 函数 ， 在 这 里 IT(P2/P) fX 
表 了 以 了 ;代替 P 后 引起 的 信息 量 的 降低 。 经 运算 可 得 


ICP /Po)=1lnL(xs— x12/Co /2xe)] — [C8/0)? /2] (1-18) 


显然 ， 当 6 二 0 时 ， 仍 得 到 由 式 (1-160. 计算 的 1(PWPo) 值 。 由 此 可 见 ， 分 析 方 法 的 准确 度 
影响 定量 分 析 的 信息 量 。 


二 、 提 高 分 析 精 密度 与 准确 度 的 信息 量 


前 节 已 述 及 分 析 方 法 的 精密 度 与 准确 度 对 信息 量 的 影响 。 再 进一步 考察 ， 当 用 一 精密 度 
较 差 的 分 析 方 法 (例如 半 定 量 分 析 方 法 ) 进行 初步 分 析 后 ， 再 用 具有 较 高 精密 度 与 准确 度 的 
方法 进行 分 析 ， 将 获得 信息 量 [3]，。 

设 对 未 知 样本 作 初 步 检验 时 ， 例 如 无 机 物 分 析 ， 常 用 的 这 种 半 定 量 分 析 方 法 是 发 射 光谱 
分 析 ， 初步 分 析 所 用 方法 的 标准 差 为 a。， 所 得 分 析 结 果 均 值 为 yo。， 分 析 结 果 服 从 正 态 分 布 。 
如 再 以 一 精度 较 高 的 分 析 方 法 对 试 样 作 精 密 分 析 ， 如 所 得 结果 的 均值 为 xy， 标准 差 为 <， w 
IR ooo, 此 时 















































PoCx) =|1/ Ca )exp(— 1/2[ Cx — po0)/o0]?} 


PG) = [uczzs )exp(— 1/2L Gc — i2 /o ]?) 


散 度 或 卡尔 贝克 (Kullback) 信息 量 为 





KP //P) =| PCcz)in[PCz)/PoCz)]dz 


— InCo, /o) + [Ga — uo)? +0? — o? ]/ (207) (1-19) 

式 中 , (o/oo) 反映 了 精密 度 提 高 的 程度 ， 记 为 A，A 值 恒 小 于 1， 其 值 越 小 ， 说 明 分 析 

方法 精密 度 提高 越 多 ; (y — n0? / Cos) 则 表征 了 提高 精密 度 对 准确 度 的 提高 程度 ， 记 为 B。 
这 样 ， 式 〈1-19) 可 改写 为 

ICP /Po) —1/2CA? + B? — 1 — InCA) (1-20) 

此 式 表 述 了 与 精密 度 及 准确 度 相 关 的 因子 A 和 B 对 信息 量 的 影响 。 

三 、 痕 量 分 析 的 信息 量 

在 深入 研究 痕 量 定量 分 析 时 ， 发 现 分 析 组 分 的 浓度 极 低 时 ， 定 量 分 析 数 据 以 对 数 正 态 分 
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布 表述 更 为 确切 。 本 节 将 从 这 一 点 出 发 ， 探 讨 更 确切 地 表述 痕 量 定量 分 析 信 息 量 的 
方式 [19,20] 。 
对 数 正 态 分 布 的 分 布 函数 为 
Fe (x) =P{E< x} =P {Iné< Inz) —4([InGzÓ — yp]/o} 





[ln(x)—p]/o 


=1/(V 红 )| . exp(— [InGx) — y ]?/C(265?)) dx 


其 相应 概率 密度 函数 为 
Fe (x) =F; G2 —1/Goet[InGoO — &]/oj 


— 1/Go 2x) exp(— [In(x) — 4]? /(6?)) (1-21) 

在 考察 痕 量 定量 分 析 的 信息 量 计 算 方法 时 ， 对 验 前 概率 分 布 可 作 如 下 考虑 。 可 以 对 待 测 

组 分 的 含量 作出 一 大 略 估 计 ， 例 如 估计 其 含量 最 高 值 为 zl， 即 zE(0,zi)， 即 验 前 概率 可 表 
述 为 








u l/G; — 0) =1/z; z € (0,zi) 时 
Po =l 其 他 
如 用 某 一 检测 下 限 为 zo 的 痕 量 分 析 方法 进行 分 析 ， 结 果 待 测 组 分 含量 在 SER. US 
后 分 布 为 














1/Czo 一 0)= 王 1/zo ? x € (0,zo 时 
Pz) = 
I 其 他 




















由 此 得 出 痕 量 分 析 结果 待 测 组 分 未 测 出 时 的 信息 量 为 
ICP // P) —InGe /z$) (1-22) 


由 此 可 见 ， 这 时 的 信息 量 与 分 析 方法 的 检测 下 限 有 关 。zo 越 低 ， 信 息 量 越 大 。 

现 考察 痕 量 分 析 测 出 了 待 测 组 分 含量 时 的 信息 量 ICP /Po)+ 。 如 前 述 ， 验 后 概率 分 布 
用 对 数 正 态 分 布 表 述 较为 确切 。 但 由 式 〈1-21) 表示 的 对 数 正 态 分 布 不 能 反映 痕 量 分 析 测 出 
待 测 组 分 时 的 一 个 事实 ， 即 此 时 x 不 能 小 于 或 等 于 x。。 为 解决 此 矛盾， 可 使 用 移 位 的 对 数 
正 态 分 布 ， 即 令 其 概率 密度 函数 为 























1/[(x— zo)o V2r Jexp{— [ln(z—zo)—pJ/(202)) M x € (zo， xi MH 
0 其 他 


RP, yy、o 是 In(x 一 zo) 的 正 态 分 布 的 均值 和 标准 差 。 令 
p =ln(kzo) 
k 为 移 位 对 数 正 态 分 布 的 不 对 称 系数 。 由 此 计算 信息 量 得 
ICP /Po)+ =ln(x1/x£9) + In[1/Cko V2re)] 
一 般 说 来 ， 有 了 TC(P/Po)+ SIP //Po)- ， 详 细 讨论 可 参阅 文献 [2]. 
四 、 质 量 控制 分 析 的 信息 量 
在 产品 质量 控制 分 析 中 ， 常 需 保 证 其 所 含 某 一 组 分 的 量 保持 在 某 一 范围 之 内 。 设 需 控制 


PG) 
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的 组 分 允许 下 限 为 zl， 上 限 为 zu， 通过 长 期 观测 ， 可 知 x 的 波动 的 标准 差 为 ss， 其 与 允 
许 上 下 限 的 关系 可 用 下 式 表述 : 





TITL ZT — kop (1-23a) 
Ty =E + kop (1-23b) 
XB. xr 为 待 控制 组 分 的 正常 值 ; k 的 取 值 决定 了 允许 范围 的 宽度 。 
可 设想 多 数 产品 的 规格 将 落 在 允许 范围 Cri. ru) 这 一 浓度 区 间 ， 设 落 在 这 一 区 间 的 
概率 为 a， 而 其 余 落 在 此 区 间 之 外 的 概率 则 为 (1 一 a)。 故 验 前 概率 分 布 为 
a/Cry — x4) X r € (rq. rg) 
(1—e)/[100— (zug —2120] zr € (xj. xu) 时 
注意 到 上 式 中 的 常数 取 100. AED x 的 取 值 范围 只 可 能 在 0~100% 之 间 。 经 分 析 后 的 概率 
分 布 是 正 态 的 ， 即 qoc N (Cu, o?) , H oop. 
在 进行 分 析 后 ， 如 产品 合格 


ICP /P9), —ln[ Gro — x12/(26o J2me) ] 











PoCx) = 





如 产品 不 合格 
ICP //Po)i, —In([100 — (ry — x12 ]/LG — 226 /2me ]) 


一 般 取 0. 90a <0. 99, H a2^1—o. H (Gru—2,)2«10096, 可 以 看 出 , IP AP，)。 恒 小 
于 ICP/Po)1-。， 即 检查 出 不 合格 产品 时 的 信息 量 较 未 检 出 时 大 。 这 是 易于 理解 的 ， 因 在 一 
般 条 件 下 ， 我们 总 是 期 待 生产 合格 产品 ， 否 则 生产 无 从 正常 运转 。 当 发 现 了 不 合格 产品 时 ， 
较 之 证 实生 产 在 正常 运转 ， 分 析 工 作 的 信息 量 较 大 。 

前 面 的 讨论 中 ,产品 合格 范围 的 宽度 是 (zuv r) =2kop ， 同 时 ， 如 Cro ar) 2 66 
亦 可 满足 时 ， 即 此 时 用 于 质量 控制 分 析 的 分 析 方 法 的 标准 差 必须 小 于 1/3&cfr， 那 么 ， 分 析 
方法 应 至 少 能 提供 下 述 信息 量 


ICP //Po) uis — In[ (2k vn )/ la /2xe) ] 5 Inl Co /og) C6 /n )/Ca /2xe) ] (1-24) 
式 中 ,nn 为 产品 质量 控制 分 析 的 平行 测定 次 数 。 


第 五 节 ”分析 仪 如 的 信息 功能 


在 分 析 化 学 由 于 迅猛 发 展 出 现 “理论 危机 ”与 动荡 不 安 的 20 世纪 70 年 代 初 ，Kaiser P0221 
在 一 篇 《元 素 分 析 的 定量 化 》 的 著名 论文 中 ， 首 先 提出 了 分 析 仪 絮 与 分 析 方 法 的 供 信 能力 的 
概念 。Kaiser 的 概念 在 分 析 信息 理论 发 展 中 起 了 重要 的 作用 ， 对 于 比较 不 同 分 析 仪器 与 分 析 
方法 的 功能 具有 实际 意义 ， 并 可 用 作 分 析 实 验 条 件 优 化 的 指标 。 


一 、 分 析 仪 器 与 分 析 方 法 的 供 信和 能力 


分 析 仪 器 或 分 析 方 法 的 供 信 能 力 Pint 取 决 于 可 量 测 的 量 的 数目 ww， 及 每 一 量 i 可 区 分 的 
阶梯 数 Si : 
























































Piat = >)1d(S;) (1-25) 
i=l 
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所 谓 可 量 测 的 量 ， 可 以 是 某 一 参量 如 频率 、 波 长 、 质 量 数 、 电 位 等 的 不 同 取 值 。Pint 的 单位 
就 是 炉 的 单位 ， 这 实际 上 就 是 各 种 信号 均 认 作 等 概率 时 的 信号 焙 。 对 电磁 波谱 分 析 仪 器 ， 这 
种 参量 可 以 是 波长 或 频率 ， 例 如 发 射 光 谱 分 析 中 谱 线 的 波长 代表 一 个 参量 ， 不 同 波长 的 谱 线 
代表 了 可 量 测 的 量 ， 如 每 一 谱 线 的 强度 又 划分 为 10 个 阶梯 ， 则 S; 为 10。 

对 于 给 定 的 参量 ”~， 例 如 频率 ， 不 可 能 将 其 划分 为 无 限 个 可 分 别 测 量 的 数值 。 限 制 这 一 
划分 的 因素 是 所 谓 分 辨 率 。 对 频率 而 言 ， 分 辩 率 在 理论 上 是 受到 测 不 准 原理 制约 的 ， 对 任意 
参量 r+， 可 定义 其 分 辨 率 为 




















Róc)-r/àr 


式 中 ，6r 是 最 小 的 可 互相 区 分 的 ~ 值 。 对 于 由 参量 的 上 限 ru 到 下 限 ri 的 区 间 Ar， 将 有 
Ar /8r 个 不 同 的 可 量 测 的 位 置 ， 即 


Ar/àr — RG)CAr /r) 











因此 可 定义 
Pii = [O ROOIES: Cr) dr/r (1-26) 


如 在 Ar KEAR). S; GO 可 认 作 常数 ， 即 RGO , S; GO 和 恒 等 于 或 它们 的 均值 等 于 R 和 
Sio 则 有 








Pint 一 人 ldCSi)lnCruyri) (1-28) 


AD EO FRE T] E ON jh sr E hEOE QE. dH] AES TR] y SER 2 Pr Use. UE DU B3] FE I8] A 9E B6 71 29 
R(z) ， 其 含义 类 同 于 RG(r) ， 则 上 述 定 义 可 扩充 为 : 


Pin - [^ [ROR ES; C, t) ]Clr/r) (dt /0) (1-27) 





注意 到 此 处 的 S 被 认 作 是 ”> 和 上 二 者 的 函数 。 如 在 积分 区 间 RG(r) 、R(z) 及 Sit. t) 均 可 
认 作 常数 ， 即 取 其 均值 表述 ， 则 有 
Pa =R, R,ld(S;)In(Gru/riDcInGg/t)) (1-28) 


从 式 (0-28) 可 以 看 出 ，n 或 分 辨 紊 R(r) R GO 对 分 析 仪 器 或 分 析 方 法 的 供 信 能力 的 影响 ， 
远 超 过 增加 每 一 可 量 测量 划分 的 阶梯 S 的 影响 。 分 辨 能 力 可 按 数量 级 增加 ， 达 到 例如 105 这 
样 的 数值 ， 而 当 S 由 2 增 至 100 时 , 1d(S) 仅 由 1 增 至 7 左右。 信息 理论 给 我 们 提供 了 这 样 
的 启示 : 为 了 提高 分 析 仪 器 或 分 析 方 法 提供 信息 的 能 力 ， 如 仅 从 提供 的 信息 量 数量 这 一 角度 
考虑 ， 增 加 可 粗略 量 测 的 量 〈 增 加 分 辨 率 ， 增 加 第 二 个 量 测 的 参量 ) 效果 远 超过 改善 量 测 的 
精密 度 。 

表 1-7 列举 了 常见 分 析 仪 器 与 分 析 方 法 的 供 信 和 能力 33。 表 中 的 数值 系 按 所 涉及 方法 的 
一 般 实验 条 件 估算 ， 分 子 光 谱 的 分 辩 能 力 的 估算 考虑 了 吸收 谱 带 的 带宽 ， 除 注 明 计数 器 读数 
外 ， 均 为 模拟 电路 组 成 的 仪器 。 

AR 1-7 可 以 看 出 ， 欲 解决 复杂 的 化 合 物 成 分 与 结构 分 析 的 问题 ， 常 需 采 用 现代 分 析 仪 
器 手段 。 这 一 选择 ， 是 不 以 分 析 工 作者 的 主观 兴趣 或 偏爱 为 转移 的 ， 而 是 由 现代 分 析 仪 器 的 
强大 供 信 能 力 所 决 定 的 。 由 于 分 析 工作 的 仪器 化 、 自 动 化 、 计 算 机 化 等 而 导致 的 分 析 化 学 学 
科 的 深刻 变化 ， 其 根源 亦 在 于 现代 生产 与 科研 的 发 展 ， 向 分 析 化 学 提出 的 供给 大 量化 学 信息 
的 日 益 增长 的 要 求 。 
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分 析 仪器 与 分 析 方 法 的 供 信 能 















































分 析 仪器 或 分 析 方 法 R, ru/ru R, S Pinr 或 Pine (t )/bit 
紫外 可 见 分 子 吸收 光谱 10 5 10? . 1x10? 
红外 分 子 吸 收 光 谱 100 10 0? . 6X 10? 
紫外 可 见 分 子 荧光 光谱 10/10* 5/5* 0? .8X10? 
紫外 可 见 时 间 分 辨 分 子 荧光 光谱 10/10* 5/5* 10? 0? . 3X 105 
原子 发 射 光 谱 , 小 型 单 色 器 10! 5 10? .1X105 
原子 发 射 光谱 ,大 型 摄 谱 仪 105 5 0? 1X10$ 
法 布 理 - 彼 罗 特 干涉 仪 107 1. 0002 10? 4X 10! 
ETKILI, APER, 50 通道 50 — 0? 3.5X10? 
原子 发 射 光谱 ,时 间 分 辨 ,小 型 单 色 器 104 5 10? 10? 7. 1 X107 
原子 奖 光 光谱 , 非 分 光 ( 单 通道 ) 1 = 0? 7. 0X 10? 
原子 荧光 光谱 , 非 分 光 , 光 子 计数 器 ( 单 通道 ) i — 0! 1. 4X 10! 
X 射线 获 光 光谱 ,计数 检测 10! 5 01 2. 2X 10? 
火花 源 质 谱 10! 35 10? 2.5X10 
常规 质谱 6 10 0? 1. 6X 10? 
重量 法 10 10! 1. 4X 10! 




















二 、 分 析 仪 器 的 信道 容量 








本 节 拟 讨论 与 分 析 仪器 设计 密切 相关 的 信道 容量 问题 。 这 一 问题 对 分 析 仪 器 之 间 的 联 


用 ， 及 分 析 仪 器 与 计算 机 联机 等 具有 重要 意义 。 








根据 Nyquist 提出 的 采样 定理 ， 作 为 时 间 的 函数 G(z) 的 分 析 信 号 ， 二 次 采样 间隔 时 间 





Aty 应 为 
Aty =1/(2w) 
RP, w 为 分 析 信 和 号 的 频率 。 








对 于 一 个 分 析 仪 器 ， 其 产生 或 处 理 分 析 信息 的 速率 由 其 信息 量 与 采样 速 





散 分 析 信号 ， 如 每 秒 输出 个 符号 ， M RR” S 
H=—n X P;ld(P;) (pit/s) 


率 决 定 。 对 于 离 


对 于 连续 分 析 信 和 号， 采样 速率 取决 于 输出 信号 的 频 宽 ， 奉 其 频 宽 为 w(Hz) ， 根 据 前 面 








讨论 的 Nyquist 采样 定理 ， 最 低 必需 的 采样 速率 应 为 2w， 否则 将 损失 信息 
速率 ”为 


H=—2w| POEP GO» 


当 输 出 的 分 析 信 号 服从 正 态 分 布 时 ， 如 其 方差 为 V(V =), WMA "3E 


H=2wld(vV2xeV) (bit/s) 





. But. RU 


(1-29) 


一 个 分 析 仪 器 的 输出 ， 可 能 是 另 一 个 分 析 仪器 的 输入 ， 因此 ， 我 们 
须 考 虑 这 些 认 作 信 道 的 分 析 仪 器 或 计算 机 传输 与 接受 信息 的 能 力 ， 即 所 谓 信 道 容 量 ， 或 信 
S 在 不 考虑 噪 Ei m i. 











方差 为 V 的 正 态 分 布 信号 时 分 析 仪 器 的 信道 容量 。 


若 分 析 信 和 号 与 噪声 (用 N 表示 ) 均 服 从 正 态 分 布 ， 合 成 的 实际 分 析 信 和 号 





亦 必 服从 正 态 
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分 布 ， 则 由 式 (1-29) 表示 的 分 析 仪 器 的 信道 容量 可 改 为 





H Cy) —2wldCG/2zeV + N) (bit/s) 





同 理 ， 噪 声 的 信道 容量 可 表示 为 
H (y | x) =H gr —2wldG/2xe N) (bit/s) 
作为 最 大 分 析 信 息 传输 速率 的 分 析 仪 器 信道 容量 C 可 表述 为 
C=max[H(y)— Hy |x)]=wld(1+V/N)=wld(l+ S/N) (1-30) 


XB, S/N 为 信 噪 比 。 

本 节 所 讨论 的 问题 的 焦点 ， 就 在 于 研究 几 个 分 析 仪器 联 用 或 分 析 仪器 与 计算 机 联机 时 从 
信道 容量 角度 相互 兼容 的 问题 。 这 个 问题 与 我 们 过 滤 分 析 试 液 时 ， 将 其 倾 至 一 漏斗 中 的 情况 
颇 类 似 。 若 滤纸 折 又 得 当 或 漏斗 的 水 柱 效率 高 ， 可 较 快 地 将 溶液 滤 过 ， 否 则 速度 减 慢 。 若 倾 
液 速 度 超 过 滤纸 和 漏斗 能 接受 与 流 过 的 容量 ， 必 然 造成 分 析 溶 液 的 洲 失 。 洪 失 分 析 试 液 即 损 
失 了 化 学 信息 ， 分 析 工 作 失 败 。 在 分 析 仪 器 之 间或 分 析 仪 器 与 计算 机 联机 时 ， 如 信道 容量 不 
相 匹 配 ， 会 发 生 类 似 的 损失 分 析 信息 的 情况 。 接 受 前 一 个 仪器 送 来 的 分 析 信息 的 仪器 或 计算 
机 ， 其 信道 容量 必须 是 不 小 于 前 一 仪器 的 信道 容量 ， 和 否则 将 损失 分 析 信息 ， 整 个 分 析 系 统 是 
无 法 提供 正确 的 结果 的 。 

效 以 红外 光谱 仪 为 例 讨 论 式 (1-300. 的 应 用 。 

试 比 较 红 外 光谱 仪 的 两 种 类 型 : 色散 型 (棱镜 或 光栅 ) 和 迈克 和 耳 逊 - 傅 里 叶 
(Michaelson-Fourier) 型 。 一 般 的 工作 范围 取 4000 一 400cm- 1， 典型 的 最 小 分 辩 波 数 为 8 一 
0.lem  ， 红 外 光谱 仪 的 分 辩 率 与 扫描 观察 时 间 一 般 可 调 ， 而 信 噪 比 S/N 则 是 依赖 于 上 述 
变量 而 变化 的 。 色 散 型 红外 光谱 仪 有 两 个 缺陷 难以 解决 : 一 是 由 单 色 器 分 出 单 色 光 依 次 测定 
吸收 ， 得 到 一 张 有 一 定 精度 的 谱 图 所 需 时 间 较 长 ， 例 如 2min; 男 一 缺陷 是 由 于 达到 所 需 分 
状 率 必须 用 狭 缝 ， 因 而 进入 单 色 器 的 光 能 不 能 太 低 ， 否 则 难以 检测 。 采 用 迈克 耳 逊 干涉 装置 
的 傅 里 叶 变 换 红 外 光谱 仪 (FT-IR) 可 免 此 弊 。 由 于 色散 型 仪器 中 ， 信 和 号 的 强度 正比 于 观测 
时 间 (整个 光谱 观测 时 间 T 与 分 辩 单 元 M 之 比值 T/M)， 而 噪声 则 正比 于 观测 时 间 的 平方 
AR LCT/MO17] ， 故 信 噪 比 S/N EEF [CT/MD)17] , mi FT-IR 光谱 仪 的 信 噪 比 正 比 于 
TW2， 因 此 在 观测 时 间 相 同 的 情况 下 ，FT-IR 光谱 仪 的 信 品 比 为 色散 型 仪器 的 MI? 倍 ， 这 
一 优点 称 为 费 尔 盖 特 CFellgetO 优点 。 而 获得 这 一 优点 所 付出 的 代价 ， 是 与 之 联机 的 计算 
机 的 信道 容量 显著 增加 。 

现 试 用 式 (01-300 估算 色散 型 红外 光谱 仪 的 信道 容量 。 如 设 在 吸收 率 接近 0 时 信和 噪 比 
S/N 值 有 (500/1) 左右 ， 在 4000 一 400cm 1! 光 域 ， 最 小 分 辩 单 元 设 为 2cm 1， 为 达到 上 
述 信 噪 比 ， 设 所 使 用 的 仪器 需 调 整 至 慢 的 扫描 速度 ， 应 用 采样 定理 要 考虑 每 一 分 辩 单 元 需 被 
采样 2 次 ， 由 此 计算 采样 速率 ， 估 算 w 值 约 2. 22 采样 单元 /s， 则 信道 容量 C1 为 


C; —2. 221d(1 + 500/1) =19. 9(bit/s) 


































































































再 看 FT-IR 光谱 仪 的 情况 。FT-IR 是 从 空间 域 采 集 数 据 。 空 间 坐标 (x ) 是 迈克 耳 逊 干 
涉 仪 中 动 镜 的 位 移 。 动 镜 的 运动 可 以 x 二 vt 表述 ， 此 处 o 为 动 镜 的 速率 ， 输 出 的 信号 称 为 
干涉 图 。 THE b 是 空间 和 时 间 的 函数 


b —bx)-—bCGt) 
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干涉 图 是 许多 频率 的 加 合 。 每 一 频率 与 光谱 波 数 v 之 间 存 在 一 定 关系 : 


b) =|- B (exp[— Znjux ]dt (1-314) 
或 

b Cut ) =| BC)exp[— 2njut ]dt (1-31b) 
每 一 光谱 波 数 v 对 应 一 与 动 镜 速度 w 相关 的 声 频 : 





f (Hz)=v(cm 1)v(cm/s) 


采样 频率 由 最 高 光谱 频率 vj 决定 ， 如 4000cm-1， 可 得 ww 二 2500Hz， 如 此 时 实际 达到 
的 S/N 值 为 6700/1， 则 信道 容量 Cz 为 


C» —25001dC1 + 6700/1) =31776 (bit/s) 


FT-IR 光谱 仪 对 与 之 联机 的 计算 机 的 信道 容量 或 运算 速度 要 求 显 然 要 高 得 多 。 

有 关 作 者 [2 研究 了 色谱 仪 的 信道 容量 ， 将 式 〈1-30) 用 于 色谱 仪 ，w 值 一 般 至 多 是 几 
个 赫 效 ， 但 S/N 可 超过 10! , be C 可 达到 50bit/s 左右 ， 用 色散 型 红外 光谱 仪 与 之 联 用 ， 
信道 容量 可 能 难于 匹配 ， 而 用 FT-IR 光谱 仪 则 完全 可 以 满足 要 求 。 


三 、 分 析 方 法 的 信息 效率 


对 分 析 方 法 作出 一 个 较 全 面 的 评价 ， 需 考虑 其 精密 度 、 选 择 性 、 表 面 或 空间 的 分 辨 能 
力 、 分 析 速 度 和 成 本 等 等 诸多 因素 。 精 密度 涉及 标准 差 或 相对 标准 差 ， 对 仪器 分 析 而 言 ， 可 
以 用 信 噪 比 表述 ;选择 性 可 以 用 同时 能 分 析 的 元 素 或 化 合 物 的 数目 表述 ， 亦 可 以 用 共存 物质 
的 影响 表述 ; 表面 或 空间 分 辨 能 力 对 现代 材料 分 析 其 为 重要 ， 因 材料 科学 研究 的 新 进展 表 
明 ， 许 多 材料 的 特异 性 能 不 但 取决 于 某 些 成 分 的 总 含量 ， 而 且 与 这 些 成 分 在 材料 中 的 空间 分 
布 有 关 ; 分 析 速 度 以 及 分 析 成 本 等 因素 对 解决 实际 分 析 课 题 很 重要 。 除 上 面 提 到 的 各 项 指标 
外 ,一 个 根本 性 的 指标 是 提供 分 析 信 息 的 功能 ， 亦 是 本 节 讨 论 的 中 心 课题 ， 这 里， 将 引入 一 
些 补充 概念 。 

有 关 作 者 [55 建议 定义 信息 效率 下 为 




























































































E=|]e; (1-32) 
i=1 
此 处 e; 为 效率 系数 ， 
| (8; We, <1 
"700 me 1 


式 中 ，e; 是 效率 比 。 对 于 分 析 方 法 的 某 一 特性 参数 ， 效 率 比 是 指 为 解决 某 一 分 析 问 题 
(p) 所 需 的 值 与 该 分 析 方 法 CAO 所 具有 的 数值 之 比 。 例 如 ， 考 虑 的 是 信息 量 (IT)， 为 解决 
分 析 问 题 (p) 需 信 息 量 I,， 分析 方 法 A) 能 提供 的 信息 量 为 TA， 则 sy 值 为 
ej 一 TAITA (1-33) 
不 同情 况 下 信息 量 的 计算 我 们 已 在 前 面 作 过 系统 讨论 。 又 如 指标 是 指 能 测定 的 组 分 数 ， 
对 给 定 的 分 析 问 题 需 测定 Nb 个 组 分 ， 分 析 方 法 实际 能 测定 Na 个 组 分 ， 则 























第 一 章 ”现代 分 析 化 学 的 信息 理论 | oz | 





en —Ny/NA (1-34) 
如 指标 是 指 分 析 时 间 ， 设 分 析 工 作 需 在 时 间 工 , 内 完成 ， 而 该 分 析 方 法 需 时 TA。， 则 
esT 一 Tb/TA (1-35) 


如 对 所 有 的 指标 均 有 e — 1, WEE 1， 如 某 一 指标 小 于 1， 则 已 一 1， 只 要 有 一 个 指标 达 不 

到 要 求 ，ci>1， 即 正二 0， 该 分 析 方法 不 能 采用 。 
从 另 一 方面 ， 还 可 定义 一 与 分 析 成 本 、 信 息 量 及 信息 效率 相关 的 指标 ， 权 称 信息 效益 ， 
RSME (1-36) 


式 中 ,为 分 析 成 本 ; M 二 多 T;， 为 分 析 所 有 组 分 i 的 信息 量 之 和 。 

值得 提出 的 是 ， 按 上 述 方法 评估 分 析 方 法 提供 信息 的 效益 ， 对 给 定 分 析 方 法 而 言 ， 其 值 
与 分 析 问 题 的 性 质 有 关 。 对 于 解决 某 一 问题 信息 效益 高 的 方法 ， 在 解决 另 一 课题 时 不 一 定 有 
好 的 效益 。 
K 1-8 列举 为 解决 测定 钢 中 锰 含 量 (0.0526—6?6MrÓO. 的 方法 比较 ， 分 析 课 题 对 于 测定 
标准 差 的 要 求 为 10%， 分 析 时 间 的 要 求 则 设 定 三 种 情况 : (a) 短 于 一 天 ; (b) 短 于 30min; 
(c) AT 2min。 由 表 1-8 可 见 ， 对 分 析 时 间 要 求 不 高 时 ， 例 如 可 允许 在 一 天 内 完成 分 析 工 
作 (a)， 容 量 分 析 、 电 位 滴定 与 光度 分 析 较 光谱 分 析 的 信息 效率 与 效益 为 高 。 这 一 点 说 明 ， 
现代 分 析 化 学 的 迅猛 发 展 及 随 之 而 来 的 革命 性 变革 ， 并 不 意味 着 分 析 工 作者 将 抛弃 原 有 的 传 
统 分 析 方法 。 这 一 显而易见 的 事实 ， 颇 类 似 于 人 类 进入 了 航天 飞行 的 时 代 ， 并 不 意味 着 应 废 
止 常规 交通 工具 ， 或 认为 丧失 步行 能 力 对 人 类 活动 无 关 紧 要 。 另 一 方面 ， 表 1-8 亦 显示 ， 对 
要 求 快速 完成 的 分 析 工 作 ， 在 传统 分 析 方法 已 不 奏效 时 ， 仪 器 分 析 方 法 确 有 其 优越 处 。 


钢 中 锰 含 量 的 测定 方法 比较 




























































































分 析 方 法 相对 标 可 同时 测 | 分 析 时 间 相对 成 本 总 信息 量 信息 效率 信息 效益 R 
à 准 差 /% | 定 组 分 NA | Ta/min | (货币 单位 ) | — M/bit E /(bit/ 单 位 成 本 ) 
容量 法 (过 硫 (a)0. 018 0. 0044 
酸 盐 法 ,二 次 2 60 16 4. 00 (b)0 0 
ZnO 分 离 ) (c0 0 
(a0. 088 0. 0044 
电位 滴定 2 1 30 8 4. 00 (b)0. 42 0. 21 
(00 0 
4r 26 26 BE A (a)0. 010 0. 0044 
析 法 (转化 为 高 3 1 30 8 3.41 (b)0. 49 0. 21 
RIR) (c)0 0 
(a)0. 047 0. 0039 
原子 吸收 法 1 1 20 6 5. 00 (b)0. 22 0. 19 
(00 0 
: (a0. 00026 0. 0035 
TEENI 
oM 分 5 50 3 1 133. 8 (b)0. 0013 0.17 
(Cc)0 0 
(a)0. 042 0. 0029 
发 射 光 谱 - 测 
10 50 30 12 83.8 (b)0. 020 0. 14 
微 光度 分 析 i 
C0 0 
(a)0.0000087 | 0. 000058 
Ed 光 5 50 1 20 133.8 (b)0.00042 0. 0028 
a P (c)0. 0063 0. 042 
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采样 是 分 析 测 试 工作 的 第 一 步 ， 分 析 测 试 结果 的 可 靠 性 与 采样 是 否 正确 直接 相关 。 分 析 
测试 的 目的 就 是 要 根据 从 局 部 试 样 〈 样 本 ) 测 得 的 数据 来 获取 有 关 对 象 全 体 〈 总 体 ) 的 无 仿 
信息 。 怎 样 使 局 部 采样 可 在 统计 意义 上 尽 可 能 地 代表 总 体 ， 是 采样 理论 和 方法 所 研究 的 内 
容 。 本 章 将 分 别 讨论 分 析 化 学 中 的 采样 理论 和 方法 。 采 样 理论 是 指 如 何 进 行 试 样 采集 的 数学 
统计 理论 。 本 章 对 常用 的 采样 方法 亦 分 别 加 以 介绍 ， 如 固体 物质 的 采样 方法 、 动 态 过 程 的 采 
样 方法 和 质量 检验 的 采样 方法 。 介 绍 理 论 将 以 其 基本 思想 为 主线 ,不 作 任 何 推 导 '""; 介绍 
基本 方法 则 以 其 基本 思路 为 主线 ， 指 出 其 使 用 特点 和 适用 范畴 。 

一 般 说 来 ， 一 个 成 功 采集 的 分 析 试 样 (或 称 样本 )， 从 统计 上 应 满足 下 述 要 求 : 中 样本 
均值 应 能 提供 总 体 均值 的 无 偏 估计 ， 一般 而 言 ， 随 机 采样 是 保证 这 种 无 偏 性 的 基本 方法 ; 
外 样 本 分 析 结 果 应 能 提供 总 体 方差 的 无 偏 估 计 ， 例 如 系统 试 样 应 能 提供 分 析 对 象 有 关 参 
量 随时 间 的 变化 等 ， 在 给 定 的 时 间 和 人 力 消 耗 下 ， 采样 方法 应 给 出 尽 可 能 精密 的 上 述 
估计 。 



















































































第 一 节 采样 的 基本 概念 和 理论 


一 、 随 机 采样 


随机 采样 系 指 等 概率 地 从 总 体 中 采集 的 试 样 ， 采 样 应 在 随机 状态 下 进行 ， 例 如 将 分 析 对 
象 全体 划 分 成 不 同 编号 的 部 分 ， 再 根据 随机 数 表 进 行 采样 ， 这 种 采样 法 亦 称 概率 采样 。 在 分 
析 实 践 中 ， 要 区 分 目标 总 体 和 母 总 体 两 个 概念 。 目 标 总 体 是 指 欲 根 据 采样 与 分 析 作出 相应 结 
论 的 目标 对 象 ; 而 母 总 体 则 是 实际 被 采集 试 样 的 对 象 ， 这 两 者 很 少 一 致 ， 但 我 们 希望 其 区 别 
尽 可 能 小 。 采 集 随 机 试 样 的 方法 即 随机 采样 就 是 尽 可 能 缩小 这 一 差别 的 一 种 手段 。 

对 于 随机 采样 ， 如 果 每 ,样本 被 分 析 了 ns 次 ， 则 其 总 方差 co 为 















































o2 —6o? /n, 3 o1 / (n.n) (2-1) 
AP, oil Hol 分 别 表示 采样 和 分 析 方 差 。 式 (2-1) 可 用 于 随机 采样 设计 。 假 设 
o? — ac? 


则 式 (2-1) 可 写成 
o2 =o2/ns la /na) (c /n,) 


从 此 式 可 以 得 出 下 述 结 论 : 

中 对 于 给 定 的 a、ns 和 nn。， 总 方差 是 随 着 采样 方差 增加 而 增加 。 

对 于 给 定 的 总 分 析 次 数 (nns。)， 如 果 不 考 虑 分 析 成 本 ， 则 随机 采样 应 尽 可 能 保证 采 
样 次 数 多 为 好 。 如 对 6 个 随机 样本 进行 两 次 分 析 要 比 对 4 个 随机 样本 进行 3 次 分 析 的 总 方 
差 小 。 

© 随机 采样 的 总 方差 是 a 的 线性 函数 。 当 a 为 一 很 小 数 ， 即 分 析 测 定 的 方差 比 采样 方 
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差 小 得 多 时 (在 实际 中 通常 是 这 种 情况 ), (a/na)(o2/ns) 与 Col/m.) 相 比 就 可 以 忽略 。 对 
于 这 样 的 情况 ，Youden 曾 指出 [中 ， 当 分 析 误差 下 降 到 采样 误差 的 1/3 或 更 低 时 ， 宁 可 使 用 
快速 简便 的 、 精 密度 不 高 但 能 与 采样 误差 匹配 的 方法 进行 分 析 。 甚 理论 根据 就 在 于 此 。 
实际 上 ， 式 (2-1) 同样 可 用 于 结合 分 析 成 本 一 起 计算 的 情况 。 设 采样 成 本 和 分 析 一 次 
试 样 的 成 本 分 别 为 C, 和 Cas WU S XA C 为 
C —n,C; d n;niCa (2-2) 




















考虑 到 式 (2-1)， 总 成 本 可 表示 为 
C=[o2/03 tol/(otna) (Cs +naCa) (2-3) 


对 此 式 就 wa 进行 微分 并 令 其 等 于 零 ， 可 得 到 在 固定 方差 条 件 下 使 总 成 本 最 小 时 最 佳 的 样本 
分 析 次 数 n。 和 采样 的 数目 ns: 





ii e OUI eeu 
n, — [o -F G/n,)]/c? SAPB] 


二 、 系 统 采样 


系统 采样 系 指 为 了 检验 某 些 系统 假设 而 采集 的 试 样 ， 例 如 生产 或 其 他 过 程 中 成 分 随时 
间 、 温 度 的 变化 而 在 空间 中 变化 ， 这 种 场合 下 的 采样 问题 有 重要 的 实际 意义 中 。 系 统 采样 
一 般 是 间隔 一 定 区 间 〈 时 间 、 空 间 、 区 域 ) 采样 ， 间 隅 不 一 定 是 等 距 的 ， 有 时 ， 事 先 可 预期 
总 体 成 分 是 不 均匀 的 ， 系 统 采样 要 尽量 减少 这 种 不 均匀 性 的 影响 。 对 于 这 样 的 情况 ， 可 采用 
分 层 采样 。 系 统 采样 的 误差 分 析 与 随机 采样 是 相似 的 。 


三 、 分 层 采样 


当 分 析 对 象 可 划分 为 若干 采样 单元 时 ， 随 机 采样 可 从 总 体 的 全 体 采 样 ， 亦 可 分 层 或 分 步 
采样 。 当 被 划分 的 各 采样 单元 之 间 试 样 成 分 的 变化 显著 大 于 每 一 单元 内 部 成 分 变化 的 情况 
时 ， 分 层 采 样 是 最 好 的 选择 。 分 层 采 样 是 先 将 分 析 对 象 划分 成 不 同 的 部 分 或 层 ， 然 后 对 不 同 
的 层次 进行 随机 采样 。 此 时 ， 总 方差 为 

ot —ol/ny d ol /(nyn,) to /npnsna) (2-6) 

式 中 ,nb 是 采样 层 数 ; ot 是 层 间 的 方差 ; n. 是 每 层 的 采样 次 数 ; o2 则 是 层 内 的 方差 。 
当 分 析 对 象 是 总 体 均匀 分 布 的 话 ， 分 层 采样 与 随机 采样 是 一 样 的 ， 但 如 果 层 间 方 差 与 层 内 方 
差 显 著 不 同时 ,分 层 采样 将 明显 优 于 随机 采样 。 值 得 指出 的 是 ， 由 式 (2-60 表示 的 方程 不 
可 能 分 别 同 时 唯一 地 求 出 nb、ns 和 ns。， 有 必要 在 它们 之 间 进 行 适当 调整 和 妥协 。 如 考虑 进 
行 分 层 的 成 本 为 Chy， 对 每 层 的 采样 成 本 为 C.， 分 析 试 样 的 成 本 为 C.， 则 整个 分 层 采 样 过 
程 的 总 成 本 为 






















































































C —nyCy 十 npnsCs 十 npnsnaCa (2-7) 


当 方 差 固定 时 ， 在 使 得 总 成 本 最 小 的 目标 下 ,nb、ns 和 nn。 的 最 优选 择 可 由 以 下 3 个 式 子 给 
出 ， 即 





ny =0p Gy CV? e C1? Foe C1? )/Gy Cl?) 
ns— (o./ay) (Cy /C,)U/? 


na = (04/0, CCa 
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四 、 代 表 性 采样 


代表 性 采样 一 般 是 指 特定 的 分 析 项 目 所 涉及 的 采样 ， 例 如 按 环境 保护 部 门 规定 采集 废水 
试 样 就 是 这 种 例子 。 在 分 析 化 学 的 实际 工作 中 ， 代 表 性 采样 是 一 种 分 层 采 样 的 特殊 情况 ， 这 
种 情况 的 分 层 采样 可 对 目标 成 分 提供 总 体 均 值 的 无 偏 估计 。 对 于 在 分 层 采样 中 每 层 的 大 小 和 
方差 均 不 相同 的 情况 下 ,为 了 得 到 总 体 均 值 在 方差 最 小 条 件 下 的 无 偏 估计 ， 在 第 k 层 的 采样 
数目 (ns):， 应 与 该 层 的 大 小 w, 和 标准 差 人 cs 六 是 有 关 的 ， 即 
































CREE TEN ORE M (2-8) 
h 
如 果 每 一 层 的 标准 差 都 相等 ， 则 式 (2-80 可 变 为 


n/n —w,/ yw, (2-9) 
k 





此 式 说 明 ， 每 层 的 采样 数 是 与 该 层 的 大 小 成 正比 的 。 同 时 ， 还 说 明 这 样 的 采样 是 与 随机 采样 
不 同 的 。 很 多 的 分 析 技 术 规 则 都 给 出 了 怎样 进行 代表 性 采样 的 规定 。 代 表 性 样本 是 由 权威 性 
组 织 为 某 种 特殊 目的 而 制 成 的 样本 。 一 般 说 来 ， 在 制作 代表 性 样本 的 过 程 中 ， 主 要 考虑 的 就 
是 上 述 讨论 的 式 (02-80 与 式 (2-9)。 明 显 可 知 ， 总 体 均值 x 的 无 偏 估 计 应 该 是 各 分 层 均值 
的 加 权 均 值 ， 即 























T=w,/ > wry) (2-10) 
k 


复合 试 样 也 是 制 取代 表 性 试 样 的 一 种 方式 ， 将 一 些 采 集 的 单个 试 样 混 合 起 来 作为 复合 试 
样 ， 必 须 考 虑 这 样 做 能 否 取 得 正确 的 有 代表 性 的 结果 。 

分 层 采 样 的 方差 分 析 : 式 (2-6) 中 的 方差 如 oL. ol 和 都 是 未 知 的 ， 但 是 ， 如 果 对 
所 有 采样 样本 都 进行 了 分 析 以 后 ， 通 过 方差 分 析 的 方法 就 可 将 它们 都 分 别 求 出 。 设 ru; 表示 
第 & 层 的 第 j 个 样本 的 第 i 次 的 某 一 目标 化 学 成 分 的 测定 值 ，zj 表示 第 & 层 的 第 j 个 样本 的 
测定 均值 ， 对 于 整个 分 层 采样 的 过 程 有 nbnsn; 个 样本 ， 则 os 的 估计 可 由 下 式 给 出 


np ns Na 


Va= 2) >， >) Gas — Ea /nsns(n; —1)] (2-11) 


k=1j=1i=1 
对 于 第 层 ， 可 以 得 到 该 层 的 采样 方差 估计 


np ns 


V=), >), ay — zx) /Eny (ns —1)] (2-12) 


k=1j=1 

RP, xm. 为 第 & 层 的 样本 均值 。 这 样 计算 的 已 不 是 单纯 总 体 采 样 方差 02 的 估计 ， 它 还 
包含 了 Vs 的 贡献 。 如 设 采样 误差 与 分 析 测 试 误差 相互 独立 ， 则 V. 是 02 十 (co?/ns) 的 估计 
值 。 对 于 层 间 方差 ， 可 由 下 式 求 出 


























nb 
Vb = 9G T)? / (np — 1) (2-13) 
k=1 








式 中 , 碟 为 总 体 的 样本 均值 。 同 理 ， 这 样 计算 的 层 间 方 差 并 不 是 式 (2-0 中 的 of， 它 
还 包含 了 层 内 采样 和 分 析 测 试 的 方差 的 贡献 ， 是 Lop t (o2 /n 十 (os/nsna)j 的 估计 值 。 但 
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只 要 利用 式 (2-11) ~È (2-13) HE Va, VAV ， 则 不 难 通过 它们 将 o? 、c2 A o? 佑 
计 出 来 。 实 际 上 ， 对 于 所 有 的 nbnsns 样 本 的 方差 ， 有 如 下 的 方差 分 解 式 


np ns na ny np ns 


Vy EEA nax? nsns 2j Ga c2 cna jc 


k—lj-—li-l k—1j-1 





nb ns Na 


+ 5 5 5 raj ~ Xj )? 


k=1j=1i=1 
方差 分 析 本 质 上 就 是 建立 在 此 分 解 式 的 基础 之 上 。 表 2-1 列 出 了 分 层 采 样 的 方差 分 析 
表 ， 利 用 此 表 可 以 方便 地 进行 分 层 采 样 的 各 种 方差 的 估计 。 


分 层 采 样 的 方差 分 析 表 


























变化 来 源 平方 和 自由 度 均 方 值 均 方 值 的 期 望 
均值 npnsna zc? 1 
Tb Fs 2 2 
FE [RI nsna 2 (x4 — x)? (mes— ly nsnaVb opt ol/ns)t+ ol/nsna) 
k=1 
"e nh ns P 2 
采样 n: D A lrg = ep [asas =T] naVs ot +(o}/na) 
k=1j=1 
分 析 $ 5 3 cus CS [nns (na —1)] Va c? 
k=17=1i 
— Hp og 
总 计 2) Di E: zia nynsnla 
k=1j= 














五 、 最 小 采样 数目 的 估计 


前 面 所 谈 到 的 有 关 最 佳 采 样 数目 的 估计 都 是 建立 在 真实 采样 方差 和 真实 分 析 方 差 之 上 
的 。 但 是 ， 实 际 上 采样 仍 是 建立 在 相对 小 样本 采样 之 上 ， 所 以 怎样 利用 小 样本 采样 的 各 种 方 
差 所 得 的 估计 值 来 进行 最 小 采样 数目 的 估计 是 本 小 节 将 要 讨论 的 问题 。 本 小 节 所 要 讨论 的 最 
小 采样 数目 的 估计 方法 是 建立 在 学 生 分 布 统计 量 或 称 i- 统 计量 的 基础 之 上 的 站。 

根据 学 生 分 布 ， 可 通过 计算 所 得 的 均值 来 对 真实 均值 y 作出 如 下 的 区 间 估 计 

u =T + usa wn (2-14) 

AP, so AEREE oo 的 估计 ;学 生 分 布 参数 上 为 取 一 定 置 信和 度 和 自由 度 (2 一 1) 

时 的 对 应 值 。 据 此 可 以 计算 出 ”， 
n = (59)? /(Gc — u)? = (tso)? /e? (2-15) 
因 n 为 一 待 求 数 ， 所 以 在 对 参数 上 查 表 取 值 时 先 用 7 三 ce 作为 其 自由 度 来 确定 上 值 ， 用 此 + 
值 根据 式 (2-15) 算出 一 个 nn 后， 继 用 此 来 再 查 得 一 个 新 的 : 值 ， 如 此 循环 ， 直 到 ”收敛 
于 一 常数 。 对 于 随机 采样 的 情况 ， 总 的 分 析 测 斌 数目 为 nsn。， 如 果 分 析 测 试 的 标准 偏差 sa 
很 小 可 以 忽略 时 ， 则 分 析 测 试 的 误差 也 可 以 忽略 ， 此 时 就 可 以 将 式 (2-15) 简写 为 
ns =(tss)?/e2 (2-16) 
上 式 是 由 小 样本 采样 导出 的 。 对 于 大 量 样本 采样 的 情况 ， 即 采样 量 占 总 体 量具 有 相当 部 分 
时 ， 需 引入 一 个 称 为 “有 限 总 体 校正 ”因子 ， 即 (1 一 n/N)'?， 来 进行 校正 。 在 此 ,，N 是 
总 体 所 含 样 本 数 。 将 此 校正 因子 乘 入 式 (2-14) 右边 的 第 二 项 ， 易 得 
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ns — G?s2? ND/Ce? N + t?52) (2-17) 


从 式 (2-17) 明显 可 知 ， 有 限 总 体 校正 因子 只 对 小 总 体 的 情况 是 适用 的 ， 如 果 总 体 很 大 ， 也 
即 NN 很 大 ， 则 该 校正 因子 就 变 为 1 了 。 

引入 7- 统计 量 和 置信 度 的 概念 ， 就 使 得 对 采样 数目 的 估计 变 得 实用 了 。 这 样 ， 在 前 面 所 
讨论 的 一 些 式 子 的 未 知 真实 量 如 o 就 可 用 估计 方差 来 替代 了 ， 如 式 (2-1) 就 可 变 为 
























































e$ = (t?s?) /n, + (t2s2)/ ns na) (2-18) 
式 中 的 上 就 是 上 面 所 讨论 的 t- 统 计量 。 同 理 ， 可 据 此 求 得 随机 采样 的 样本 数 ns 
ns = Ls s/n 0]/ed posa) 


六 、 采 样 常数 


1. Ingamell 采样 常数 
为 表征 混合 得 很 好 的 实验 室 样本 的 均匀 性 ，Ingamell 定义 了 一 个 采样 常数 K s, 


K,—R?w (2-20) 


RP, R AIIE, BUR —100s./z5 w 为 被 分 析 样 本 的 质量 。 如 将 式 (2-20 
与 式 (2-160 比较 一 下 可 发 现 , 式 (2-200 中 隐 含 如 下 意义 : Ingamell 采样 常数 KK, 相当 于 
保证 采样 相对 标准 偏差 为 1% 时 的 必需 样本 质量 ， 此 时 ，z- 统 计量 的 取 值 为 1， 即 自由 度 为 
无 穷 大 和 置信 和 度 为 68% 时 的 + 值 。 对 于 1g ER, H Ingamell 采样 常数 就 是 经 一 个 很 精确 分 
析 方 法 (因此 时 分 析 测 定 的 误差 相对 于 采样 误差 可 以 忽略 ) 测定 所 得 的 相对 标准 偏差 的 平方 
根 ， 一 般 就 可 用 此 方法 来 实验 确定 Ingamell 采样 常数 。 如 果 将 式 (2-20) 改写 一 下 ， 可 得 

R? =K,/w (2-21) 


因 开 , 为 一 常数 ， 所 以 ， 采 样 的 相对 偏差 与 采样 质量 成 反比 ， 换 言 之 ， 欲 得 到 很 低 的 采样 的 
相对 偏差 就 必须 保证 采样 需 有 相应 的 足够 质量 。 同 时 ， 从 式 (2-2D 还 可 以 看 出 ，K , 越 小 ， 
说 明 样 本 的 混合 程度 越 好 。 对 于 分 层 测 定 的 非 均匀 样本 ， 其 不 同 的 层次 当 有 不 同 的 Ingamell 
采样 常数 ， 人 们 也 常用 此 法 来 测定 总 体 的 均匀 程度 。 对 于 分 隔 的 总 体 ， 应 引入 附加 的 分 隔 
常数 。 

2. Visman 采样 常数 

Visman 阐述 了 在 考虑 分 隔 效 应 下 的 采样 理论 。 实 验 估计 方差 与 两 个 采样 常数 有 关 ， 
一 个 是 与 Ingamell 采样 常数 相似 的 均匀 度 常 数 A， 另 一 个 是 反映 分 隔 (segregation) 程度 
的 常数 B 










































































— A / Gwn,) + B /n, (2-22) 

式 中 ，wns 是 ;个 样本 的 总 质量 。 如 果 总 体 样本 是 均匀 的 ， 则 B= 二 0， 此 时 式 (2-22) 

就 与 式 (2-20) 完全 类 似 ， 并 可 容易 发 现 Ingamell 采样 常数 与 Visman 采样 常数 存在 如 下 
关系 : 























A —10^z?K, (2-23) 


Visman 采样 常数 可 通过 收集 一 系列 小 样本 和 一 系列 大 样本 来 进行 实验 确定 。 先 对 这 两 
系列 的 方差 进行 估计 ， 然后， 将 这 两 系列 样本 的 质量 和 所 得 的 方差 代入 式 (2-22)， 就 可 舍 
计 出 Visman 采样 常数 A 和 B。 同 时 ， 从 式 (2-22) 还 可 以 看 出 ,假设 希望 保持 方差 不 变 ， 
则 采样 数 是 随 着 Visman 的 表征 分 隔 效 应 的 常数 B 增加 而 增加 的 ， 而 且 ， 采 样 方差 与 采样 
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数 成 反比 ， 增 加 采样 数 可 降低 采样 方差 。 当 B= 二 0 时 ， 说 明 样 本 总 体 是 均匀 的 ， 此 时 ， 只 要 
样本 的 总 质量 wns) 不 变 ， 采 样 数 将 不 再 影响 采样 方差 。 


第 二 节 ， 非 均匀 体系 建 模 方法 及 大 批 物 质 的 采样 误差 


前 面 从 一 般 的 角度 对 用 统计 和 实验 方法 来 处 理 采 样 问题 进行 了 讨论 。 实 际 上 ， 大 批 物质 
的 采样 误差 主要 来 自 该 总 体 的 非 均 匀 性 。 对 于 混合 很 好 的 气体 和 液体 ， 如 果 均 匀 性 很 好 ， 则 
一 小 部 分 的 样本 就 可 代表 总 体 。 但 是 ， 如 果 样 本 是 非 均 匀 的 ， 则 采样 成 了 突出 的 问题 ， 自 
然 ， 通 过 采样 来 对 样本 总 体 的 非 均 匀 性 的 建 模 就 成 为 了 大 批 物质 采样 理论 的 核心 问题 。 


一 、 固 体 物质 的 采样 理论 和 方法 


Benedetti-Pichler 将 大 批 固体 物质 的 采样 问题 与 在 一 个 装 有 成 百 吨 混合 的 白 豆 和 红豆 大 
仓库 中 对 它们 进行 计数 的 问题 作 了 一 个 类 比 。 如 果 要 对 仓库 中 所 有 的 豆子 都 一 一 计数 的 话 ， 
则 须 花 上 几 年 的 时 间 ， 因 而 人 们 只 好 转向 一 个 比较 现实 但 不 予 全 部 计数 精确 的 方法 。 首 先 ， 
从 中 取出 一 个 样本 分 别 对 白 豆 和 红豆 计数 ， 这 样 计数 的 精确 度 显 然 是 与 所 取样 本 的 大 小 有 
关 ， 从 统计 上 讲 ， 这 种 以 局 部 代表 全 体 的 办 法 将 带 来 误差 ， 取 样 越 少 ， 误 差 越 大 。 可 通过 二 
项 式 分 布 来 决定 采样 量 。 对 于 大 批 固体 物质 总 体 的 现代 采样 理论 一 般 说 来 都 是 基于 这 一 道理 。 

设 分 析 对 象 总 体 是 由 两 类 立方 体 颗粒 A 和 B 所 组 成 ， 这 些 颗 粒 具 有 同样 的 棱 长 x 和 同 
样 的 密度 o， 颗 粒 A 的 总 质量 分 数 为 wa， 颗 粒 B 的 总 质量 分 数 为 ws。 先 考虑 一 个 最 简单 
模型 ， 即 只 设 颗 粒 A 中 含有 待 测 物 x， 且 此 待 测 物 在 颗粒 A 中 的 质量 分 数 为 xx 。 如 取 具 有 
质量 为 w 的 样本 进行 化 学 分 析 ， 其 采样 方差 为 c: 。 这 样 的 模型 可 用 二 项 式 分 布 来 处 理 。 对 
于 服从 二 项 式 分 布 的 随机 变量 ， 其 方差 为 apg 。 根 据 上 述 讨 论 的 简单 模型 ， 采 样 颗粒 数 Gn) 
应 为 wm/(ons ) ， 其 取得 颗粒 A 的 概率 (p) 应 为 wwAx， 其 取得 颗粒 B 的 概率 (g) 应 为 ws 
或 (1 一 wa)。 据 此 ， 可 得 根据 颗粒 数 来 表述 的 采样 方差 01: 





























































































































G^ pande) = [ww a (100 — wa)jd/L (ous) X 1000] (2-24) 

如 以 所 求 物质 的 百分比 来 计算 csoaride ， 则 应 再 除 以 颗粒 的 数目 ， 即 
o? —o* ganido /Lw/ (p?) ] X 100 (2-25) 

最 简单 的 情况 是 颗粒 A 就 是 所 求 的 纯 物质 ， 即 此 时 有 wa —c. IA 
c? = (op? /w)x(100 — x) (2-26) 


X (2-260 可 用 于 估计 给 定 样 本 质量 时 的 采样 误差 ， 或 用 来 在 给 定 了 采样 误差 标准 的 条 
件 下 估计 所 需 最 小 采样 量 。 当 然 ， 此 模型 过 于 简单 ， 在 实际 的 分 析 化 学 实践 中 ， 一 般 须 对 此 
模型 进行 必要 的 修订 。 

上 述 统计 原理 可 推广 到 较 接 近 实 际 的 情况 ， 即 设 试 样 总 体 中 含 两 种 颗粒 A 和 B， 颗 粒 A 
含 待 测 物 的 百分比 (质量 分 数 ) X ra, WMA B 含 待 测 物 的 百分比 (质量 分 数 ) xs H 
颗粒 A 的 密度 为 oA， 颗 粒 也 的 密度 为 op， 这 样 ， 上 述 简单 模型 可 变 为 

c? —[ Coapp/p) Gi? /w)w a 100 —w4)]X [Gra — x8)2/1000] (2-27) 


注意 在 式 (2-27) 中 ， 不 但 考虑 了 试 样 总 体 的 密度 o， 而 且 ， 对 于 颗粒 A 和 颗粒 B 的 不 同 密 
度 也 一 起 进行 了 考虑 ， 同 时 此 式 中 最 右边 的 平方 项 ， 即 [ (xs 一 zp)*/1000] 还 将 两 种 颗粒 的 
不 同 百 分 含量 也 进行 了 考虑 。 从 式 (2-27) 可 明显 看 出 ，xA 和 xzs 的 差别 越 大 ， 其 采样 误差 
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也 越 大 。 

值得 提出 的 是 ， 在 分 析 化 学 文献 中 ~， 对 上 述 模型 有 很 多 不 同 的 表达 式 ， 然 而 它们 
之 间 的 差别 只 在 于 一 些微 小 的 统计 近似 和 假设 的 不 同 ， 本 质 上 是 类 似 的 。 下 面 也 将 它们 列 
出 ， 以 备 读 者 参考 。 

(1) Benedetti-Pichler 经 典 方程 


c? — {Coa p5/p*)[LP(1— P)/n) ]V [Cra —xg)/x]* (2-28) 


AP, ox 为 待 测 组 分 的 总 体 百 分 含 量 ; P 为 取得 颗粒 A 的 概率 。 
(2) Ingamells 方程 


Cx 一 ) (zg — ta — srap’? 
CBOp — TAPA? 7ZB T/T TA x 10-5 





poBCzB 一 Z)CZB 一 ZA) 十 OA 一 ZA)CZB 一 ZA) 








K,—R?w ; (2-29) 
d 
(3) Wilson 方程 
] 4 
c? xc M Gw;p; — Nw p; 2/100 [m m; /Cp;p;) |n? p/m) (2-30) 
i-1 


j-1 

Wilson 方程 是 将 二 元 颗粒 的 非 均 匀 体 系 推广 到 多 元 颗粒 的 非 均 匀 体 系 的 表达 式 。 式 中 
下 标 i 和 7 表示 在 m 种 颗粒 的 第 i 或 第 j 种 颗粒 ，Aw; 表示 ww; 与 总 体 含 量 w 之 间 的 差 值 。 
同时 ，Wilson 方程 是 建立 在 所 有 颗粒 都 具有 相同 体积 的 基础 上 ， 如 果 颗 粒 的 密度 具有 较 大 
的 不 同 ，Wilson 方程 只 在 ,不 太 大 时 才 成 立 。 


二 、 颗 粒 性 质 因 子 (Gy 理论 ) 


基于 研究 粒状 物质 的 采样 ，Gy 对 非 均 匀 体 系 的 采样 发 展 了 一 套 较 全 面 的 理论 。 根 据 Gy 
的 采样 理论 ， 由 式 (2-260 表示 的 简单 公式 可 改写 成 
c? = (pp? )x (100 — x)(/w—1/W)fel (2-31) 


在 此 表达 式 中 ， 原 式 中 的 (O1/w 由 (l/w—1/Wo 代替 了 。 这 样 的 替换 主要 反映 了 总 
体 物 质 的 质量 对 采样 方差 的 影响 ， 采 样 误差 是 随 着 采样 质量 w 的 增加 和 总 体质 量 的 减少 而 
减少 的 ， 当 采样 质量 w 增加 到 接近 于 总 体质 量 W 时 ， 采 样 方差 就 会 接近 于 零 ;， 当 总 体质 量 
W 比 采 样 质量 w 大 很 多 时 ，(1/w 一 1/W) 就 很 接近 (1/w)， 总 体质 量 的 影响 可 忽略 不 计 了 。 

1. 颗粒 形态 因子 (f) 

在 式 (2-260 的 导出 过 程 中 ， 所 有 颗粒 都 是 假设 具有 立方 体形 体积 (ws )， 可 实际 上 颗 
粒 的 形态 是 有 差别 的 。 式 (2-31) 中 引入 的 了 因子 就 是 为 了 补偿 这 些 差 别 。 如 果 是 在 理想 的 
情况 下 ， 颗 粒 形态 因子 f 可 以 取 1; 如 果 所 有 颗粒 都 是 由 以 jy 为 直径 的 小 圆 球 组 成 时 ， 则 颗 
粒 形态 因子 f 可 取 0.524。 对 于 大 部 分 总 体 样本 ，f 可 取 0.5， 相 对 于 f 取 1， 这 是 一 种 对 
实际 情况 的 较 好 的 逼近 。 如 果 总 体 物质 是 具有 特殊 形态 的 颗粒 ， 如 黄金 颗粒 ， 颗 粒 形态 因子 
三 可 以 低 至 0. 2。 

2. 颗粒 大 小 分 布 因子 (g) 

在 式 (2-260 的 导出 过 程 中 ， 所 有 颗粒 都 是 假设 为 大 小 相同 的 ， 可 实际 上 颗粒 的 大 小 也 
是 有 差别 的 ， 故 在 式 〈2-31) 中 引入 颗粒 大 小 分 布 因 子 g 来 补偿 这 种 差别 。 在 理想 的 情况 
下 ， 颗 粒 大 小 分 布 因子 g 取 1; 如 果 颗 粒 大 小 差别 较 大 ， 即 既 有 很 粗 的 又 有 很 细 的 混在 一 起 
时 ， 则 颗粒 大 小 分 布 因子 g 推荐 取 0.25。 只 有 中 等 颗粒 或 是 只 有 小 颗粒 时 ， 则 颗粒 大 小 分 
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布 因子 g 推荐 分 别 取 0.5 或 0.75。 

3. 释放 (liberation) 因子 (1) 

在 式 (2-260 的 导出 过 程 中 ， 假 设 总 体 物 质 由 两 种 颗粒 A M BAAR. Wu Hs. wei 
了 wh 二 x+。 可 是 ， 在 实际 情况 下 ， 有 一 些 板块 可 能 同时 含有 两 种 颗粒 。 在 研磨 过 程 中 ， 那 
些 含有 待 测 物 的 颗粒 从 板块 中 被 释放 出 来 。 如 将 这 种 释放 过 程 也 加 以 考虑 ， 就 可 引入 释放 因 
Fl, HEX CA 

















l= GQqui/pni!? (2-32) 


式 中 ,yi 是 板块 中 含有 待 测 物 的 细 粒 的 平均 尺寸 ; 而 w 则 是 总 体 物质 中 的 最 大 板块 颗 
TrBg Ap. Mb poui, /= 二 1， 即 此 时 没有 释放 效应 。 释放 因子 1 的 估计 可 由 显微镜 或 得 
选 实 验 来 确定 。 

4. 组 成 因子 (e) 

除 CIl/: —1/WO. f. g 和 /上 外 ， 我 们 还 可 以 定义 一 个 组 成 因子 。 这 个 因子 主要 反映 颗 
粒 组 成 变化 对 采样 方差 的 贡献 。 考 虑 到 总 体 物 质 的 密度 (oO 实际 应 为 两 种 不 同 颗粒 密度 
(OA 和 og) 的 加 权 平 均 ， 即 














oo 一 (z/100)oA 十 [(100 一 z)/100jon (2-33) 
则 组 成 因子 c 可 定义 为 : 
c =x (100 — x2(€7/100004 d- [C100 — x2/100 Jon) (2-34) 
JEET, Gy 的 采样 理论 可 由 一 个 很 简单 的 式 子 表 出 
c? =p? (1/w — 1/W)cfgl (2-35) 


三 、 动 态 过 程 的 采样 理论 和 方法 


若 采样 对 象 是 一 个 连续 过 程 ， 需 从 过 程 中 的 物质 流 中 采样 ， 则 情况 较为 复杂 。 

讲 这 种 过 程 可 以 时 间 序 列表 示 。 在 这 个 序列 中 ， 可 在 图 2-1 中 取 长 度 P 作为 一 个 “批量 ”， 

按 频率 A 在 时 间 G 内 采样 次 ， 采 样 理论 需 考察 G、A 、n 对 估计 P 的 成 分 的 影响 [8， ` 3 

于 一 阶 Gauss 稳 态 随机 过 程 , 4 P—nA, 设 A>G， 即 采样 不 重 琶 ， 则 采集 的 总 样 $==nG。 

这 里 ， 采 样 的 总 样 成 分 变化 的 方差 ot, ， 与 作为 批 的 整个 P 段 的 成 分 变化 方差 o2 对 采样 方 
3$ ol 的 贡献 可 表述 为 : 




















o? 一 02 Hop? + 20 my (2-36) 


式 中 ，cm 为 总 样 与 批 二 者 的 协 方差 。 
Muskens "A= 阶 Gauss mens Y Eque (2-36) TANTA 设 过 


o?, 一 [2c2/(zg)](g 一 1 十 eg 十 (es 十 eg 一 2) 











[e*/(1—e*)]—[e*(01—e7?)]/[n(1—e)5?]) (2-37) 
o» — (2ol/p?)(p —1l-Fe?) (2-38) 


omx —Loi/Gpg) ](2ng + (1— e?) 








[Ces — DC] — e™) (e*t — DIO —e*25] (2-39) 
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从 动态 过 程 物质 流 采样 示意 


Vi] 





这 里 ， 作 为 批 的 参量 起 作用 的 是 p 〈 以 工 :单位 表征 已 ) 。 批 的 概念 在 这 里 并 不 限于 一 
均 相 的 物质 流 ， 例 如 管道 中 液体 物质 对 应 于 p xn BT KH. MET, bunt 
示 时 ， 相 关 因 子 T, 称 为 时 间 和 常数 。 亦 可 使 用 无 量 纲 ， 或 以 物质 的 包 数 等 表示 。 在 上 述 各 式 
子 中 ， 总 样 的 参量 包括 G 的 大 小 及 两 次 采样 之 间 的 距离 A， 如 果 选 择 G 很 大 ， 以 致 采 样 之 
间 实 际 无 间隔 ， 显 然 此 时 ot 二 0， 这 时 整个 “ 批 ” 均 被 采集 ，A 二 P/n， 总 样 的 大 小 是 nG— 
已 。 随 时 间 常 数 增 大 ， 即 Ts， 体系 趋 近 于 一 均匀 的 对 象 ， 这 时 om, ops om HME F 
F, REEK HIRE R AERE HE], 
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质量 检验 分 析 中 ， 需 根据 分 析 结 果 决 定 产品 是 否 合格 ,一 般 分 为 计量 抽样 检验 与 计数 抽 
样 检 验 两 种 采样 检验 方法 [5 。 
一 、 计 量 抽样 检验 
这 种 检验 方法 是 用 于 定量 测试 产品 中 某 一 变量 。 分 析 检 验 中 常见 的 情况 是 测定 某 一 组 分 
的 百 分 含 量 ， 例 如 某 种 有 效 成 分 的 最 低 含量 ， 某 种 有 害 成 分 的 最 高 含量 ， 等 。 在 考虑 这 种 检 
验 的 采样 时 ， 首 先 需 确定 合格 产品 的 相应 定量 标准 。 今 假设 待 测 的 组 分 含量 这 一 变量 服从 正 
态 分 布 ， 并 设 产品 中 的 有 效 成 分 的 最 低 含量 标准 为 x。， 分 析 方 法 的 标准 差 为 oa， 可 计算 
对 应 于 任意 真实 含量 的 x Byu 值 ， 即 标准 正 态 分 布 值 : 
u =(xo — zx)/o (2-40) 
从 标准 正 态 分 布 可 计算 实际 含量 为 zx 时 该 批 试 样 被 接受 的 概率 已 。 例 如 ， 设 某 工 三 购 
买 氟 硅 酸 原料 ， 要 求 Ho SiFo 的 含量 不 得 低 于 350g/L， 分 析 方 法 单 次 测定 的 标准 差 为 10g/ 
L， 根 据 u 值 可 得 表 2-2 的 数据 。 


不 同 实际 含量 x 的 试 样 被 接受 的 概率 










































































x/(g/L) u P 
310 4 0. 00003 
320 3 0. 0014 


330 2 0. 0228 
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续 表 
x/(g/L) u P 
340 1 0. 1587 
350 0 0. 5000 
360 —1 0. 8413 
370 —2 0. 9772 
380 —3 0. 9986 








将 概率 P 对 xz 作 图 〈 见 图 2-2)， 可 得 抽检 特性 曲线 ， 简 称 OC 曲线 。 
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计量 抽样 检验 的 OC 曲线 


由 表 2-2 Hp UL. 含量 为 340g/L 的 原料 有 15. 9% 的 概率 被 接受 ， 如 果 希 望 接 受 这 样 的 原 
料 的 概率 降低 至 2%， 可 采用 两 个 方法 。 第 一 个 办 法 是 提高 接受 标准 ， 从 标准 正 态 分 布 表 可 
知 ，P 二 2% 时 , u 值 应 取 2.05， RA u 的 表达 式 可 求 出 x。( 使 对 应 于 了 二 2% 的 xz 为 340)， 
2Z0 应 为 360g/L， 即 将 接受 标准 改 为 360g/L， 在 原 有 分 析 方 法 的 误差 不 变 的 条 件 下 ， 实 际 含 
量 为 340g/L 的 原料 被 接受 的 概率 将 降 至 2% 。 另 一 个 办 法 是 改善 标准 差 c， 因 o 是 采样 误差 
和 分 析 误 差 之 和 ， 与 采样 及 测定 次 数 有 关 ， 即 o==o'/VYn ， 分 析 方 法 一 次 测定 标准 差 为 c， 
本 例 为 10g/L， H o RA u 的 表达 式 (2-400 P, Rin: 

n — (2.05? x 102)/(350 — 340)? ~ 4( 次 ) 


即 进行 4 次 采样 〈 分 析 ) ， 可 在 原 定 接受 标准 下 ， 将 接受 实际 含量 为 340g/L 的 原料 的 概率 
下 降 至 2%。 

采用 序 贯 采样 法 可 减少 检验 工作 量 。 先 取 少 量 试 样 作 定量 分 析 检 验 。 如 结果 显示 其 定量 
指标 显然 在 要 求 范围 之 内 或 之 外 ， 即 可 作出 合格 或 不 合格 的 决策 ; 如 分 析 结 果 靠 近 指 标的 边 
缘 ， 则 作 进 一 步 采 样 检验 ， 直 至 有 把 握 作 出 决策 。 定 量 分 析 结 果 提 供 的 数值 信息 ， 此 时 可 加 
以 充分 利用 ， 从 而 减少 进一步 的 工作 量 ( 试 与 下 面 讨论 的 计数 抽样 检验 比较 )。 

序 贯 检验 法 按 如 下 步骤 进行 。 取 一 组 共 个 试 样 ， 分 析 得 出 均值 zx， 将 xz 值 与 接受 / 拒 
绝 标 准 比 较 ， 令 zo 为 给 定 的 生产 者 风险 a 值 (第 一 类 错误 ， 以 真 当 假 ， 即 生产 者 风险 ) 对 
BU 值 ，z 为 给 定 的 消费 者 风险 8 值 〈 第 二 类 错误 ， 以 假 当 真 ， 即 消费 者 风险 ) 对 应 的 并 
d. 758€ x 5 FR xU M zy 的 关系 : 


r;-—nGod-ax,)/2-4- hi 
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式 中 
| oiln[ (1 — a)/B] 


Xo 7 X. 
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; | oiln[ (1 — 8) /a] 

式 中 ，cs 为 表征 整 批 试 样 成 分 变化 情况 的 标准 差 ， 可 根据 原 有 检验 记录 资料 计算 求 得 。 

如 zz 值 大 于 zi 或 小 于 z*， 可 作出 判决 ， 拒 收 或 接受 该 批 产 品 ， 如 z (TE, xc. HE 

续 采 样 分 析 ， 再 计算 累计 的 xz 值 。 用 序 贯 抽样 法 可 采集 较 少 试 样 数 (n) 进行 质量 判决 ， 如 
产品 批 的 真 值 恰 为 zu ， 此 时 需 采 集 的 试 样 数 为 

.. 2e? {Q — a)In[ C1 — 22/8] — aln[ C1 — 8) /a ]) 




















Nr=zx, lama (2-41) 
Tij c 值 为 zi 或 居于 二 者 之 间 时 的 值 为 : 
" zr Nos nac Qt Baa lab Gd cera pi (RAS 
i lrg — zr)" 
2 — mu 
T _ 20 (In[ C1 — 22/8] X In[ C1 — 8) /a ]) (2-43) 


(zig —2;)4 
这 儿 个 值 均 小 于 一 次 抽样 检验 所 需要 的 采样 数 ， 

二 、 计 数 抽样 检验 

这 种 检验 方法 多 用 于 以 件 计数 的 产品 检验 ， 如 采用 化 学 分 析 方 法 ， 则 是 作 定 性 分 析 提 供 
检验 对 象 是 否 合格 的 属性 ， 例 如 用 看 谱 镜 确定 某 种 杂质 存在 或 不 存在 。 由 于 这 里 只 有 1bit 
言 息 量 (合格 或 不 合格 两 种 可 能 性 ) 较 定 量 分 析 提 供 的 信息 量 低 ， 这 种 情况 的 采样 检验 需 用 
不 同 的 统计 方法 处 理 。 

对 于 一 批 共 N 个 试 样 ， 如 其 中 不 合格 的 占 p ,合格 的 占 g， 取 个 试 样 找到 < 个 不 合格 
试 样 的 概率 PP。 可 按 超 几 何 分 布 计算 为 


ec) a 
而 采集 ”个 试 样 检验 ， 如 规定 其 中 只 有 a 个 不 合格 时 可 接受 ， 则 被 接受 的 概率 为 


CC ee 


c—0 


当 n 值 很 大 时 上 式 计算 量 大 ， 即 N-~ce 时 ， 可 用 二 项 式 分 布 : 


: . DNAYA(N —pN N n u 
lim P, — lim l = p'a p)™ (2-46) 
N->co N—>œ C n—c ñ P 


一 般 当 N 足够 大 〈 例 如 NI9108) 时 ， 即 可 用 上 式 ， 此 时 PP。 可 计算 为 : 






























































P,= >),P. = ap (2-47) 
c=0 


| 034 
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如 除 N 足够 大 外 ， 同 时 还 满足 p 较 小 〈 例 如 委 0.1) 的 条 件 ， 则 可 用 更 简洁 的 Poisson 


分 布 作 近 似 计算 : 


Pu S Gg /c! je7^21— S Oo /el je"? (2-48) 
g=} [n ) 


.一 一 ( 














以 Ps 对 批 中 不 合格 的 百分数 作 图 ， 可 得 OC 曲线 ， 这 种 计算 结果 示 于 表 2-3. 
产品 不 合格 率 与 接受 概率 的 关系 











采集 样本 n 个 中 所 含 不 合格 品 数 接受 概率 P. 

批 不 合格 率 p 1 一 S0 n —100 n —500 
n-—50 n -—100 n —500 MR RE à 

0.5 0. 25 0.5 2.5 0. 974 0. 986 1. 000 
1.0 0.5 1.0 5.0 0. 910 0. 920 0. 986 
1.5 0. 75 1.5 7.5 0. 827 0. 809 0. 863 
2.0 1.0 2.0 10.0 0. 736 0. 677 0.583 
2.5 1.25 2.5 12.5 0. 645 0. 597 0. 297 
3.0 1.5 3.0 15.0 0. 558 0. 423 0. 118 
4.0 2.0 4.0 20.0 0. 406 0. 238 0.011 
5.0 2.5 5.0 25.0 0. 288 0. 125 0. 001 
10.0 5.0 10.0 50.0 0. 040 0. 003 0. 000 




















由 表 2-3 可 以 看 出 ， 如 制定 的 抽样 检验 方案 是 取 50 个 样 检验 ， 出 现 1 个 或 无 不 合格 品 





时 接受 该 批 试 样 ， 这 并 不 意味 着 产品 的 不 合格 率 一 定 是 小 于 2%， 不 合格 率 为 4% 的 产品 批 ， 
仍 有 40% 的 概率 被 接受 ， 这 就 是 消费 者 的 风险 。 反 之 ，1% 合 格 率 的 产品 ， 有 (1 一 0. 910) 


H 





R 
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数 检 ， 而 这 需要 耗费 很 大 的 人 力 和 物力 。 序 贯 抽样 检验 能 减少 达到 相同 的 风险 水 平 需要 的 采 





EF 个 数 。 设 a 是 与 给 定 生 产 者 风险 Ga) 对 应 的 整 批 产 品 应 予 接受 时 的 不 合格 产品 百 分 


数 ， 这 个 可 接受 质量 水 平 称 AQR (acceptable quality level)。ai 是 与 消费 者 风险 8 相对 应 的 
整 批 产品 应 予 拒 收 时 的 不 合格 产品 百分数 ， 这 个 应 予 拒 收 的 质量 水 平 称 批 不 合格 品 百 分 数 的 
允许 界限 LIPD。 今 取 nn 个 试 样 检验 ， 如 发 现 有 4a 个 不 合格 ,将 4 与 cl as eR: 











a, 三 一 hi 十 sn 


à» =h2 +sn 


上 式 中 ， 


s — (a, —a,)/1n(pa,/a,) 
hı —1n[X1 —a)/B]/lnla,/aa) 
h2 —ln[ GO — 8) /a ]/lnla,/aa) 


如 a 二 a1， 接 受 该 批 产 品 ; 如 aas, ERRA m; 如 a 介 于 ai 与 a 之 间 ， 继 续 采 样 并 
重新 计算 aj, ag HEITAR, 


对 质量 恰 符合 AQL 的 一 批 产 品 ， 采 样 数 的 期 望 值 为 : 
(1 —a)hi—ahs, 


S— Ua 





n(aa) = 
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对 质量 恰 为 LTPD 的 一 批 产 品 ， 则 有 : 
(1— hs — Bh 


Üy mS 
采样 数 的 期 望 值 最 大 为 (12h1/s)， 此 时 质量 水 平 趋 近 于 s. 

R 2-3 的 数据 表明 ， 如 果 不 用 序 贯 采样 法 ， 取 500 个 样 检 验 ， 当 不 合格 品 大 于 10 时 拒 
收 ， 则 拒 收 含 1.5% Caa —0.015) 不 合格 品 的 生产 者 风险 a 为 1 一 0.86 王 0.14， 接 受 含 
3.0% (aa =0.03) 不 合格 品 的 消费 者 风险 8 为 0.12， 此 时 可 算得 hi = 2.8413, h: = 
2.6531. s=0. 0216, Bp 





n(a,) = 








4, — — 2. 8413 + 0. 0216n 
a, — 2. 6531 + 0. 0216n 


这 时 采样 数 的 最 大 期 望 值 为 349， 即 维持 同样 水 平 的 生产 者 风险 与 消费 者 风险 ， 在 最 不 利 的 
情况 下 也 无 须 采 集 500 个 试 样 进行 检验 。 按 此 法 检验 ， 可 先 采 150 个 样 检验 ， 此 时 a,—0 
(如 无 不 合格 品 ， 则 接受 )，as 二 6 〈 如 大 于 或 等 于 6 个 不 合格 品 ， 则 拒 收 )， 如 不 合格 品 在 
al 与 ws 之 间 ， 再 采集 150 个 样 ， 此 时 aX 4. au 为 9， 依 此 类 推 。 对 质量 恰 符合 AQL 
(1.5 凶 不 合格 率 ) 的 产品 ， 采 样 数 的 期 望 值 为 314， 对 恰 符 合 LTPD 的 产品 ， 采 样 数 的 期 望 
值 为 237。 在 确保 所 需 的 产品 质量 标准 下 ， 此 法 显然 能 减少 检验 工作 量 ， 降 低 生 产 成 本 。 

采用 科学 的 检验 方法 ， 是 发 达 国 家 如 日 本 确保 其 产品 质 优 (退货 率 低 ， 即 8 低 )， 且 成 
本 合理 ( 尽 可 能 低 的 a) 的 诀窍 。 而 有 的 生产 部 门 由 于 分 析 检 验 人 员 缺 乏 统计 采样 知识 ， 不 
能 理解 或 拒 不 使 用 本 章 论 及 的 采样 方法 ， 沿 用 一 些 缺 乏 科 学 根据 的 采样 方法 ， 例 如 “固定 比 
例 抽 检 法 ”， 导 致 产品 质量 长 期 不 能 改善 (8 高 ) 或 生产 成 本 高 (a 高 )。 显 然 ， 普 及 有 关 采 
样 理论 知识 ， 具 有 重要 的 实际 意义 。 
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本 章 将 讨论 分 析 化 学 中 的 试验 设计 与 优化 方法 。 第 一 部 分 以 目前 统计 学 中 最 重要 的 实验 
设计 体系 ， 即 因子 设计 及 部 分 因子 设计 、 正 交 试 验 设计 、 均 匀 试 验 设 计 、 最 优 设计 为 主要 对 
象 来 介绍 该 研究 领域 的 主要 成 果 。 混 料 试验 设计 为 上 述 试 验 设 计 的 一 种 特殊 情况 ， 具 有 其 特 
殊 性 ， 故 也 分 出 一 节 来 专门 介绍 。 对 于 已 为 广大 化 学 计量 学 家 熟悉 的 单纯 形 方 法 也 将 给 出 必 
要 的 介绍 。 对 于 部 分 因子 设计 、 正 交 试 验 设计 和 均匀 试验 设计 中 的 一 些 必要 的 表格 也 将 给 
出 ， 以 备 读 者 使 用 。 第 二 部 分 以 目前 应 用 数学 中 发 展 的 优化 算法 为 主线 ， 特 别 对 化 学 计量 学 
中 常用 的 优化 方法 给 出 较 详细 的 介绍 ， 分 局 部 优化 算法 和 全 局 优化 算法 两 部 分 来 阐述 。 在 介 
绍 经 典 的 局 部 最 优 方法 方面 ， 以 在 化 学 中 得 到 广泛 运用 的 方法 为 主 ; 在 介绍 全 局 最 优 方法 方 
面 ， 首 先 对 目前 在 化 学 计量 学 研究 中 备 受 关注 的 随机 寻 优 法 ， 即 模拟 退火 算法 和 遗传 算法 给 
出 较 详细 的 介绍 ， 然 后 对 伪 蒙 特 卡 罗 法 ， 即 基于 数论 方法 的 序 贯 优化 法 也 作出 介绍 。 

从 目前 的 情况 看 ， 整 个 化 学 学 科 实 际 上 还 是 一 门 以 实验 研究 为 主 的 自然 科学 的 分 支 学 
科 ， 所 以 有 关 如 何 通 过 试验 设计 的 方法 来 最 有 效 地 获取 相应 的 化 学 信息 ， 以 达到 最 优 进行 化 
学 反应 的 条 件 应 是 化 学 乃至 化 工 研究 中 的 一 个 十 分 重要 的 问题 。 就 分 析 化 学 而 言 ， 通 过 试验 
设计 以 找到 最 优 的 测量 实验 条 件 一 直 是 化 学 计量 学 研究 的 一 个 重要 内 容 。 如 色谱 分 析 中 的 最 
优 分 离 条 件 的 选择 、 各 种 仪器 分 析 方 法 的 诸多 参量 的 选择 等 。 可 以 这 么 说 ， 对 于 化 学 量 测 实 
验 ， 试 验 设计 的 成 败 ， 关 系 到 通过 实验 能 否 得 到 包含 所 需 信 息 的 化 学 量 测 数据 ， 一 个 失败 的 
试验 设计 将 导致 所 得 到 的 数据 中 包含 的 信息 量 极 低 ， 任 何 卓 有 成 效 的 处 理 数据 的 化 学 计量 学 
方法 也 无 法 从 中 提取 有 用 的 信息 。 在 系统 讨论 试验 设计 方法 之 前 ， 在 此 将 这 一 领域 的 基本 概 
念 及 常用 术语 给 出 必要 的 介绍 。 

在 试验 设计 中 ， 衡 量 试验 效果 的 量 称 为 试验 指标 〈 简 称 指标 ) 或 响应 值 ， 能 用 数值 表述 
的 指标 称 定 量 指标 ， 如 化 学 反应 的 产 率 、 分 析 试 验 的 检测 限 或 其 他 品质 因数 等 。 亦 有 不 是 用 
量 表示 的 指标 ， 如 化 学 产品 的 色 度 等 ， 这 种 指标 称 为 定性 指标 。 定 性 指标 常 可 转化 为 定量 指 
标 ， 如 用 5 级 计 分 进行 评分 等 。 当 试验 设计 的 指标 要 用 一 组 数 表示 时 ， 如 分 析 方 法 的 优化 需 
考虑 灵敏 度 、 准 确 度 、 选 择 性 等 ， 称 为 多 指标 试验 设计 的 问题 。 

完成 一 项 试验 ， 得 到 指标 的 试验 观测 值 ， 以 y 表示 。 当 改变 试验 条 件 时 ， 指 标 y 将 发 
生变 化 ， 影 响 y 取 值 的 量 称 为 因素 ( 亦 称 因子 )， 因 素 也 可 以 是 定量 因素 或 定性 因素 ， 和 指 
标 一 样 ， 定 性 因素 总 是 可 转化 为 定量 因素 。 因 素 在 试验 中 的 状态 ,例如 定量 因素 的 取 值 ， 称 
为 因素 (或 因子 ) 的 水 平 。 一 般 试验 方案 是 由 若干 个 试验 组 成 ， 因 素 在 这 些 试验 中 变化 了 几 
种 状态 就 称 为 几 种 水 平 。 在 试验 中 ， 有 的 因素 所 处 的 状态 是 不 可 控制 的 ， 例 如 在 自然 条 件 下 
进行 的 某 些 试验 ,但 一 般 化 学 实验 的 条 件 多 是 可 以 控制 的 ， 本 章 将 主要 研究 可 控 因 素 。 在 试 
验 设计 中 ， 只 对 可 控 因 素 在 试验 前 作出 设计 ， 而 对 不 可 控 因 素 ， 则 在 试验 过 程 中 记录 其 水 
平 ， 在 数据 分 析 中 加 以 处 理 。 

根据 影响 指标 的 因素 的 多 少 ， 试 验 可 分 为 单 因素 试验 和 多 因素 试验 ， 化 学 试验 包括 分 析 
化 学 量 测试 验 一 般 均 是 多 因素 试验 ， 用 x1，xs，…， x 表示 试验 中 的 n 个 因素 ,这 个 因 
素 的 可 能 取 值 的 区 域 称 为 试验 域 ， 记 为 只 ，y 可 看 成 定义 在 只 上 的 一 个 函数 ， 
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y=f(x) 

RP, x= [x4 xi. c5 z,o MKZ £60 已 知 时 ， 用 最 优 试验 设计 方法 ， 如 D-i 
优 设 计 等 应 当 是 最 好 的 选择 ， 当 多 数 化 学 试验 中 ， 函 数 f(. ) 不 能 完全 明了 ， 这 时 无 法 直接 
写 出 f(. ) 的 数学 表达 式 。 一 种 方法 是 通过 大 量 试验 构 造 一 类 函数 来 通 近 这 些 试验 数据 ， 然 
后 再 从 函数 求 最 优 解 ， 并 通过 试验 验证 。 另 一 种 方法 是 不 研究 试验 指标 与 因子 之 间 的 函数 关 
系 ， 而 只 寻求 试验 指标 最 优 的 诸 因 素 取 值 ， 这 种 方法 称 为 “黑箱 ” 式 方 法 。 

所 谓 试 验 设 计 ， 上 归根结底 是 如 何在 试验 域 上 最 有 效 地 选择 试验 点 ， 通 过 试验 得 到 指标 
(或 响应 ) 的 观测 值 ， 然 后 进行 数据 分 析 求 得 指标 (或 响应 ) 取 最 优 值 的 条 件 。 因 此 ， 试验 
设计 的 目标 ， 就 是 要 用 较 少 的 试验 取得 关于 fO 尽 可 能 充分 的 信息 。 

在 此 值得 提出 的 是 ， 虽 然 在 化 学 实验 研究 中 研究 对 象 大 多 是 多 变量 体系 ， 可 是 ， 化 学 文 
献 特别 是 分 析 化 学 文献 中 许多 有 关 试 验 的 报道 本 质 上 是 按 单 因 素 试验 设计 的 ， 即 通常 在 化 学 
试验 中 采用 每 次 只 变动 一 个 因素 而 固定 其 他 因素 的 设计 方法 ， 这 种 方法 当然 是 最 简单 和 最 直 
观 的 ， 然 而 ， 一般 说 来 ， 对 于 绝 大 多 数 多 因素 化 学 体系 ， 用 这 种 方法 来 设计 试验 ， 是 很 难 找 
到 真正 的 最 优 实验 条 件 的 。 在 许多 情况 下 ， 得 到 的 结果 并 不 是 最 优 的 因子 水 平 (参见 图 3-1). 
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固定 其 他 变量 、 变 动 一 个 变量 的 寻求 最 优 实验 条 件 所 得 结果 示意 图 
1 一 固定 z* 、 变 动 zi 找到 的 第 二 个 最 优点 ; 2 一 固定 x1. AER). 找到 的 第 一 个 最 优点 














在 试验 设计 和 优化 中 ， 还 可 区 分 同时 试验 与 序 贯 试验 两 种 工作 方法 。 所 谓 同 时 试验 ， 就 
是 通过 试验 设计 对 有 关 因 素 的 水 平 进行 规划 后 ， 同 时 进行 诸 因子 各 水 平 的 试验 ， 然 后 综合 分 
析 得 到 的 试验 结果 ， 求 出 最 优 条 件 。 序 贯 试验 是 每 进行 一 次 或 少数 几 次 试验 后 ， 先 分 析 已 取 
得 的 试验 结果 ， 再 根据 这 些 结果 规划 下 一 步 的 试验 ， 这 样 序 贯 试验 各 最 优 条 件 逼 近 。 目 前 应 
用 广泛 的 正 交 试验 或 称 为 部 分 因子 试验 、 均 匀 试 验 设计 及 最 优 试验 设计 基本 上 属于 同时 试 
验 法 ， 而 序 贯 试验 法 的 典型 代表 是 单纯 形 优化 法 。 值 得 提出 的 是 ， 同 时 试验 与 序 贯 试 验 
可 在 优化 试验 中 综合 使 用 。 


第 一 节 ”因子 设计 及 其 析 因 分 析 方 法 


所 谓 因子 设计 实际 上 是 一 种 多 因素 试验 设计 方法 ~， 它 通常 可 由 多 种 因素 的 水 平 数 
的 一 个 乘积 表 来 表示 。 如 一 个 三 因子 二 水 平 的 因子 设计 可 由 2 来 表示 ， 亦 即 2X2X2， 需 
进行 8 次 试验 ; 而 一 个 四 因子 三 水 平 的 因子 设计 则 可 由 3* 来 表示 ， 亦 即 3X3X3X3， 需 共 
进行 81 次 试验 。 因 子 设 计 的 任务 就 是 要 通过 这 样 的 试验 安排 来 了 解 各 个 因素 及 各 因素 水 平 
之 间 的 搭配 对 响应 值 或 指标 的 影响 ， 即 析 因 问题 。 故 析 因 问题 是 因子 设计 的 主要 研究 的 问题 
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。 下 面 将 通过 一 个 具体 的 二 水 平 三 因子 试验 设计 的 例子 来 具体 说 明 因子 设计 中 析 因 分 析 

ee 

这 是 一 个 用 反 向 高 效 液 相 色 谱 分 离 酚 类 的 例子 。 在 此 ， 主 要 考察 三 个 因素 。 中 流动 相 

(水 和 甲醇 ) 中 甲醇 的 比例 : 707655 8076. OLRIK (mol/L): 0.004 和 0.01。 图 柠檬 
酸 浓 度 (g/L): 2 和 6。 由 此 可 以 得 到 表 3-1 所 示 的 一 个 试验 设计 表 : 


反 向 高 效 液 相 色谱 分 离 酚 类 的 因子 设计 表 (27) 









































试验 编号 乙酸 (A) 浓 度 ? 甲醇 (M) 比 例 2 柠檬 酸 (C) 浓 度 2 色谱 分 离 度 

1 o = a 0.0 
2 T = = 9.5 
3 e T = 11.0 
4 十 十 一 0.7 
5 = == T 9,9. 
6 十 一 十 8.8 
7 — 十 十 11.9 
8 十 十 十 1.7 
乙酸 CA) 的 浓度 : 0. 004mol/L (一 ) fil 0.01 mol/L (+). 





























Qo 
© 甲醇 M) 的 比例 (流动 相 : 水 和 甲醇 ): 70% (一 ) 5 8096 (H). 
@ FER (CO) 的 浓度 : 2g/L (一 ) 和 6g/L (+). 





在 此 ， 响 应 值 色谱 分 离 度 是 判别 整个 分 析 过 程 酚 类 物质 分 离 程度 的 一 个 度量 。 其 值 越 大 
说 明 分 离 效 果 越 好 。 

一 、 主 效应 的 估价 

在 上 述 试验 中 ， 最 先 想 知道 的 当然 是 每 一 种 因素 对 于 分 离 的 贡献 ， 也 就 是 说 每 种 因子 对 
pug Wr 从 表 3-1 中 可 以 看 到 ， 对 于 乙酸 而 言 ， 试 验 编号 1 2 的 差别 就 在 于 


酸 ， 其 他 的 条 件 都 一 样 。 同 理 ， 试 验 编号 3 和 4、5 和 6、7 和 8 对 于 乙酸 而 言 也 都 是 一 样 
^ 所 以 ， 乙 酸 对 分 离 效果 的 主 效 应 可 通过 下 式 求 得 : 














Cy, yilt C», ya) Cy, ys) 十 (ys ys) 
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= 一 0. 375 


因此 ， 将 乙酸 的 浓度 (mol/L) 从 0. 004 增加 到 0. 01 将 对 分 离 效果 产生 副作用 。 同 型 
以 通过 表 3-1 分 别 算出 甲醇 和 柠檬 酸 的 主 效应 : 
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从 上 述 计算 可 以 看 出 ， 根 据 表 3-1 的 数据 ， 对 于 每 一 个 因素 ， 只 要 将 正 号 的 响应 值 加 合 
起 来 减 去 带 负 号 的 响应 值 之 和 ， 就 得 到 了 每 个 因素 的 主 效 应 。 值 得 指出 的 是 ， 对 于 这 样 的 
23 因子 设计 ， 如 图 3-2 示 出 的 立体 直观 图 是 十 分 有 用 的 ， 从 图 中 可 直观 地 看 出 各 因素 的 主 
体 效应 。 
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x 
pm 
É (93) 88) 运 
S 6 V 
704 AN 
© 2 Pi 
d 
0.004 001 
乙酸 浓度 /(molL) 
2 因子 设计 立体 直观 效应 图 
二 、 交 叉 效 应 的 估价 








如 果 所 研究 的 对 象 为 一 线性 模型 ， 则 主 效应 的 估价 就 说 明了 它们 本 身 对 于 模型 影响 的 大 
小 ,可 是 ,在 绝 大 多 数 的 实际 问题 中 ， 都 存在 着 所 谓 的 交叉 效应 Cinteractive effect), Hri 
以 ， 在 估价 了 它们 自身 的 主 效应 之 后 ， 一般 都 需要 继续 估价 交叉 效应 。 

Ho. 来 看 看 怎样 定性 识别 是 否 存 在 交叉 效应 。 只 需 将 两 个 不 同 因 素 对 响应 值 作 图 ， 就 
很 容易 看 出 这 两 个 因素 是 否 存在 交叉 效应 。 图 3-3 就 给 出 了 这 样 一 个 采用 作 图 方法 来 鉴别 是 
否 存在 交叉 效应 的 例子 。 从 图 3-3 所 示 的 情况 不 难 理解 ， 如 果 图 中 的 两 条 直线 平行 ， 则 说 明 
第 二 个 因素 的 变化 对 第 一 个 因素 的 主 效应 没有 影响 ， 也 就 是 说 ， 第 二 个 因素 的 变化 引起 的 响 
应 值 的 变化 与 第 一 个 因素 变化 时 对 响应 值 的 影响 是 可 以 线性 又 加 的 ; 反之 ， 如 果 图 中 的 两 条 
直线 不 平行 ， 则 说 明 在 第 二 个 因素 发 生变 化 时 ， 第 一 个 因素 的 变化 将 或 是 加 强 或 是 减弱 第 二 
因素 对 响应 值 的 效应 ， 这 正 说 明了 这 两 个 因素 存在 交叉 效应 。 这 样 的 交叉 效应 在 化 学 化 工 的 
研究 实践 中 是 很 常见 的 。 


X1=2 
Pp dm 
i m m i A m xs 
1 1 
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X3 X» 
(a) (b) 
是 否 存在 交叉 效应 的 示意 图 
GO 不 同 zi 两 线 平 行 ， 说 明 不 存在 交叉 效应 ;(b) 不 同 zi 两 线 不 平行 ， 说 明 存 在 交叉 效应 
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从 图 3-2 还 可 以 很 清楚 地 看 出 不 同 水 平 的 响应 值 的 差别 。 对 于 柠檬 酸 和 甲醇 的 交叉 效 
应 ， 也 可 以 从 图 中 看 出 ， 这 是 因为 甲醇 效应 在 柠檬 酸 浓度 为 6g/L 时 要 明显 大 于 在 柠檬 酸 浓 
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度 为 2g/L 时 的 效应 ， 这 就 说 明 甲 醇 效 应 和 柠檬 酸 效 应 不 具有 线性 加 合 性 ， 它 们 之 间 存 在 着 
交叉 效应 。 此 交叉 效应 可 通过 以 下 步骤 来 进行 具体 计算 。 先 估价 柠檬 酸 不 同 水 平 的 甲醇 平均 
效应 ， 即 当 柠檬 酸 浓度 为 6g/ 直 时， 甲醇 的 平均 效应 为 [(ys 一 y6) 十 (yy 一 y5)]/2 一 (2.9 十 
2.60/2—2. 75; 而 当 柠 榜 酸 浓度 为 2g/L 时 ， 甲 醇 的 平均 效应 为 [Cys 一 y2) 十 (ys 一 y1)j]/2= 
(1.24-1. 00/2 —1. 15 然后 ,将 所 得 两 数 相 减 并 除 以 2， 即 可 得 到 甲醇 对 柠檬 酸 的 交叉 效应 
值 ， 即 


交叉 效应 maneo 二 LOs ye) + y7 y5)]/2 [ Cy, y2) 十 (y3 312]/2)72 


— ((2. 9+2. 60/2 — (1. 2+1. 00/2) /2 














— (2. 75 — 1. 12/2 —0. 825 








由 于 甲醇 与 柠檬 酸 的 交叉 效应 和 柠檬 酸 与 甲醇 的 交叉 效应 一 样 ， 所 以 ， 对 于 它们 的 交叉 效应 
还 可 以 先 佑 价 甲 醇 不 同 水 平 的 柠檬 酸 平均 效应 ， 再 按 上 述 过 程 进行 计算 ， 即 


交叉 效应 ( 烙 榜 酸 对 甲醇 ) 一 (Lys — y42 + Cys — y32]1/2 — Lys — y32 + Cus — y:01/2)/2 
ex 3/»—d4—97—20.0/29 














— (0. 95 4- 0. 7) /2 —0. 825 


值得 提出 的 是 ， 如 果 将 以 上 计算 式 修改 一 下 ， 可 以 得 到 


y8 十 yy 十 y* 十 y1 Ys yg y. d ys 
4 4 





AE SUUM ETERO 一 





— 0. 825 


这 样 ， 将 可 以 看 到 ， 对 于 交叉 效应 同样 可 以 通过 图 3-2 示 出 的 立体 直观 图 来 表示 ， 对 于 交叉 
效应 的 立体 直观 图 示 于 图 3-4. K 3-4 由 三 个 子 图 给 出 ， 最 上 面 的 图 ， 即 图 3-4 GO. XT 
乙酸 和 甲醇 的 交 又 效应 ， 其 中 由 带 (十 ) 号 的 平面 所 连 的 四 个 顶点 ， 表示 在 计算 中 它们 的 符 
号 都 取 正 值 ， 而 由 带 (一 ) 号 的 平面 所 连 的 四 个 顶点 则 取 负 值 ， 所 以 ， 如 果 要 计算 乙酸 和 甲 
醇 的 交叉 效应 ， 就 可 直接 用 下 式 进 行 计算 ; 

y8 十 y5 十 y4 十 y1 7 十 76 十 y3 十 y， 









































交叉 效应 (z 酸 对 甲醇 ) 一 
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(c) 


(a) 


交叉 效应 立体 直观 图 (图 中 顶点 编号 同 图 3-2) 
(a) 乙酸 CAO 和 甲醇 M) 的 交叉 效应 ; (b) 乙酸 CAO 和 柠檬 酸 (CO 的 交叉 效应 ; 
(c) 甲醇 (MD 和 柠檬 酸 (O 的 交叉 效应 
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同 理 ， 也 可 以 参照 图 3-4 Cb) 来 计算 乙酸 和 柠檬 酸 的 交叉 效应 ， 即 
y8g 十 y6 十 ys 十 yl1 Yı +F Ys FY FY? 
4 4 


— 1..74-8.84-11.04-10.0 — 11. 9-89. 3-4- 10. 7 4- 9.5 
4 4 





AE SUUM LAREO 一 





— 0. 025 


同时 ， 还 可 以 用 交叉 效应 立体 直观 图 来 计算 乙酸 、 甲 醇和 柠檬 酸 的 三 项 交叉 效应 。 在 
图 3-4 (a) 中 ， 当 柠檬 酸 的 水 平 为 6g/L 时 ， 甲 醇和 乙酸 交叉 效应 的 影响 可 由 下 式 给 出 ; 
(8 一 y7) 一 (6 一 5) (11.7 一 11.9) 一 (8.8 一 9.3) 
2 a 2 
而 当 柠 榜 酸 的 水 平 为 2g/ 工 时 ， 甲 醇和 乙酸 交叉 效应 的 影响 则 由 下 式 给 出 : 


(4 一 y3) 一 (一 y1) (10.7 一 11.0) 一 (9.5 一 10.0) 





























—0. 15 








7 2 —0.1 
所 以 ， 乙 酸 、 甲 醇和 柠 栋 酸 的 三 项 交叉 效应 为 : 

0.15 一 0.1 

一 0.025 


同样 ， 也 可 以 由 图 3-4 (bo) 或 图 3-4 CO 来 计算 三 项 交叉 效应 ， 所 得 结果 当然 一 样 。 
值得 提出 的 是 ， 还 可 直接 用 表 3-1 给 出 的 因子 设计 表 (220 来 得 到 交叉 项 计算 的 符号 。 
算法 很 简单 ， 只 需 将 要 计算 的 交叉 项 在 表 中 的 符号 相 乘 ， 根 据 正 正 得 正 、 负 负 得 正和 正 负 得 
负 的 原则 ， 即 可 计算 出 所 有 交叉 项 的 符号 。 表 3-2 给 出 了 据 此 原则 得 出 的 23 因子 设计 表 的 
acc ecd En d Uu MER 
述 情况 虽 只 是 以 2 因子 设计 为 例 来 进行 说 明 的 ， 但 其 基本 原理 对 别 的 因子 设计 的 情 
Re 


2 因子 设计 的 全 部 主 项 及 交叉 项 计算 符号 表 
















































































序号 A9 M? ce AM AC MC AMC 色谱 分 离 度 
1 = = = + + + 一 10. 0 
2 + 一 一 一 一 十 十 9. 5 
3 一 十 一 一 十 十 11.0 
4 十 十 = + = = 10. 7 
5 — 一 十 十 一 十 9. 3 
6 十 = + — + — — 8.8 
7 — 4 十 一 一 十 一 11.9 
8 十 十 十 十 十 十 十 11.7 

(D 乙酸 (A) 的 浓度 (md/L): 0.004 (一 ) 和 0.01 (+). 

© 甲醇 (M) 的 比例 (流动 相 : 水 和 甲醇 ): 70% (一 ) 与 80% (+). 

@ FERRE CO) 的 浓度 (g/L): 2 (一 ) 和 6 (+). 








ik: AM、MC、AC、A4AMC 一 两 个 或 三 个 因素 的 交叉 效应 。 


三 、 效 应 及 残 差 正 态 图 
以 上 讨论 了 因子 设计 的 主 效 应 及 交叉 效应 的 计算 ， 实 际 上 ， 还 需 对 这 些 效应 进 


Mw 


tif 


— 


| o2 | 分 析 化 学 手册 O 化 学 计量 学 





价 ， 即 决定 哪些 效应 将 在 模型 建立 时 需要 考虑 ， 哪 些 则 可 以 忽略 ， 效 应 正 态 图 (normal plot 
of effects) 即 可 以 用 来 进行 这 样 的 决断 ， 而 残 差 正 态 图 (normal plot of residuals) 则 可 用 
来 判断 所 得 模型 是 否 合理 。 

因为 正 态 分 布 为 一 般 表 示 是 由 多 种 不 定 因素 而 产生 出 来 一 种 分 布 ， 所 以 ， 如 果 某 些 效应 
是 服从 正 态 分 布 的 话 就 可 认为 它们 实际 对 实验 不 产生 显著 影响 。 用 以 检测 一 系列 变量 是 否 服 
从 正 态 分 布 的 最 简易 方法 就 是 采用 正 态 分 布 图 来 对 它们 进行 检验 。 正 态 分 布 图 的 构造 可 由 以 
下 步骤 来 完成 : 

CD 先 将 要 检验 的 一 系列 变量 按 大 小 进行 排列 ， 对 于 已 得 到 的 各 种 效应 可 得 如 表 3-3 所 
示 的 排列 。 

O 计算 累积 概率 : 对 于 有 了 个 数据 的 系列 ， 可 根据 式 (3-1) 来 计算 它们 的 累积 概率 


P;=(i—0.5)/T X 10094 (3-1) 


O 以 需 检验 变量 的 标 度 为 x 轴 ， 以 累积 概率 为 y 轴 作 图 ， 在 图 上 能 用 一 条 直线 描述 的 
变量 可 视 为 服从 正 态 分 布 的 变量 。 


色谱 分 离 试验 所 得 各 种 效应 的 顺序 排列 表 " 



























































效应 名 称 A AC AMC C AM MC M 
效应 数值 一 0. 375 0. 025 0. 025 0. 125 0. 125 0. 825 1. 925 
概 率 7. 14 21. 43 35.71 50 64. 88 78. 57 92. 86 
































CD 此 表 所 用 符号 同 表 3-2. 


由 表 3-3 所 示 的 色谱 分 离 试 验 所 得 各 种 效应 的 正 态 分 布 图 示 于 图 3-5， 从 图 3-5 可 以 看 
出 ， 效 应 AC (乙酸 与 柠檬 酸 的 交叉 效应 ) 、AMC (甲醇 、 乙 酸 与 柠檬 酸 的 三 项 交叉 效应 )、 
C 〈 柠 檬 酸 的 主 效应 ) 以 及 AM (乙酸 与 甲醇 的 交叉 效应 ) 正好 落 在 一 条 直线 上 ,说 明 它们 
对 试验 的 影响 很 小 ， 可 以 忽略 。 于 是 ， 如 果 需 要 对 此 色谱 分 离 试验 建立 回归 模型 的 话 ， 只 需 
选择 乙酸 效应 (A)、 甲 醇 效应 M) 和 甲醇 与 柠檬 酸 的 交叉 效应 OMCO 来 建立 相应 的 模型 
就 可 以 了 。 经 对 数据 建 模 可 得 


y —10. 363 一 (0.375/2)zA + (1. 925/2) x y, 十 (0.825/2)zMc 



















































































PI% i 
M 
92.9 7 * 
MC 
78.6 6 hd 
64.4 5 A 
50.4 4 C 
AMC 
3577 3 
214 2 AC 
7.1 1 4 
-0.2 -1.0 0 1.0 2.0 
X 
色谱 分 离 试验 的 各 种 效应 正 态 分 布 图 
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得 到 上 述 回归 模型 后 ， 就 可 以 用 它 来 计算 该 模型 的 残 差 ， 如 果 按 上 述 方法 所 得 残 差 正 态 
分 布 图 可 用 一 条 直线 表示 的 话 ， 说 明 模 型 是 很 合理 的 。 用 此 模型 算出 的 残 差 列 于 表 3-4， 它 











们 的 残 差 正 态 分 布 图 示 于 图 3-6。 这 些 残 差 点 似 可 通过 一 条 直线 表示 出 ， 但 吻合 得 不 是 很 好 。 
色谱 分 离 试 验 所 得 残 差 表 
















































































-1.00 -0.50 0 0.50 1.00 
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加工 革 ”色谱 分 离 试 验 的 残 差 正 态 分 布 图 





从 上 述 讨 论 可 知 ， 因 子 设计 的 确 具 有 不 少 优点 ， 它 不 但 可 方便 地 估价 出 各 种 因素 的 主 效 
应 和 它们 之 间 的 交叉 效应 ， 而 且 还 可 方便 地 建 横 ， 并 对 模型 进行 相应 的 估价 。 可 是 在 化 学 化 
工 的 实际 研究 中 ， 因 素 只 有 3 个 的 试验 并 不 多 ， 而 且 因 素 试 验 的 水 平 也 不 可 能 只 限于 2， 只 
要 因素 和 水 平 数 一 增 加 ， 因 子 设 计 就 显 出 了 它 的 不 足 。 即 使 全 部 因素 均 是 二 水 平 的 ， 当 因素 
数 为 n 时 ， 总 试验 数 就 是 N 三 2" 。 化 学 化 工 的 诸多 研究 常 涉及 很 多 因素 ， 例 如 多 达 5 一 10 
个 因素 时 ， 此 时 如 采用 因子 设计 ， 试 验 数 就 会 太 多 ， 如 5 个 因素 的 话 就 需要 32 次 试验 ， 如 
果 是 10 个 因素 的 话 ， 试 验 次 数 可 达 N —2!9 —1024 次 ! 而 且 ， 对 于 这 样 的 因子 设计 ， 其 交 
又 效应 的 计算 也 显著 增加 ， 表 3-5 列 出 了 当 因 素数 为 2 一 8 时 各 主 效应 和 交叉 效应 所 需 计算 
的 次 数 ， 就 充分 说 明 因 子 设 计 在 因素 多 于 5 时 ， 使 用 起 来 就 很 困难 了 。 这 样 ， 就 提出 了 部 分 



























































因子 设计 和 正 交 设计 的 方法 来 解决 这 样 的 问题 。 男 外 ， 如 果 因 子 的 水 平 数 很 高 时 ， 就 算 用 正 
交 设 计 也 会 感到 试验 次 数 太 多 ， 于 是 就 产生 了 均匀 设计 方法 。 


2^ 因子 设计 时 需 计算 的 效应 数 ” 






































| 0% 分 析 化 学 手册 “10” 化 学 计量 学 





























续 表 
效 应 n=2 n=3 n=4 n=5 n=6 n=7 n=8 
4 因素 交叉 1 5 15 35 70 
5 因素 交叉 1 6 21 56 
6 因素 交叉 1 7 28 
7 因素 交叉 1 8 
8 因素 交叉 1 
(D p 次 交叉 效应 的 数目 计算 公式 为 : mp — C5 =n! /[p!l ap)! ]。 


SS WB ”部 分 因子 设计 


对 于 部 分 因子 设计 ，2 水 平 的 设计 方法 比较 成 熟 ， 在 此 仅 对 它们 如 何 构建 及 有 关 的 一 些 
重要 理论 和 概念 进行 必要 的 介绍 。 对 于 2 水平 的 部 分 因子 设计 ， 一 般 都 具有 2" “的 形式 ， 
其 中 2 表示 因子 的 水 平 数 ,，n 为 因子 数 〈 或 称 因 素 的 数目 )，d 为 可 能 缩小 试验 次 数 的 2 的 
乘 方 数 ， 当 4 为 1 时 ， 因 试验 次 数 可 以 缩小 一 半 ， 故 有 半 因 子 设 计 法 之 称 ; 当 4 为 2 时， 
试验 次 数 可 以 降 至 全 因子 设计 所 需 数目 的 四 分 之 一 ， 故 有 四 分 之 一 因子 设计 法 之 称 。 


一 、 半 因子 设计 法 


所 谓 半 因 子 设计 ， 实际 上 就 是 2” 1! 次 因子 设计 ， 在 此 为 因子 数 ，2” ! 为 其 试验 次 数 ， 
因 其 试验 次 数 实际 上 只 有 全 因子 设计 的 一 半 ， 故 有 半 因 子 设计 之 称 。 在 此 仍 以 一 个 实际 例子 
来 进行 说 明 。 这 是 一 个 关于 磷酸 酶 活性 的 例子 。 

根据 以 前 的 化 学 实验 ， 我 们 知道 磷酸 酶 活性 与 硫酸 冬 〈 简 记 为 Z)、 硫 酸 镁 Ching 
MD, pH fü AWN PO, XHBAEZEGESEBR —TN GAWN D) 及 2- 氮 基 -2- 甲 基 -1- 丙 醇 〈 简 记 
HA) 这 五 个 因素 有 关 ， 所 以 ， 可 以 构造 一 个 五 因素 两 水 平 的 全 因子 设计 表 来 进行 实验 ， 以 

























































































得 到 有 关 磷 酸 酶 活性 的 主要 影响 因素 等 信息 。 有 关 这 五 个 因子 的 两 个 水 平 示 于 表 3-6 。 
E9 影响 磷酸 酶 活性 的 五 因子 两 水 平 说 明 表 
影响 因素 单 位 SR 
- 十 
Z pmol/L 40 80 
M pmol/L 1. 50 2. 50 
P 无 量 纲 10. 00 10. 70 
D mmol/L 10 20 
A mol/L 0. 20 0. 60 
由 25 次 全 因子 设计 所 得 结果 示 于 表 3-7。 
磷酸 酶 活性 2 次 全 因子 设计 结果 表 
子 T - 
实验 号 酶 活性 /u? | 实验 号 酶 活性 /u? 
Z M P D A Z M P D A 
1 109 5 — — + = x 103 
2 十 113 6 十 — 十 一 = 104 
gs : 十 = = = 103 7 = + + — — 106 
4 + + — — S 113 8 + + + — — 123 
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续 表 
E E 
实验 号 酶 活性 /u? | 实验 号 酶 活性 /ua 
Z M P D A Z M P D A 
9* 过 | 全 peS Ie 9 21 | 09 
10 | | 46 22* | 4 | | 17 
1 —|c-|l-|-4i|- 1 28* | — | | - | | + 105 
12 -cEilctl-|-!|- 3 24 | FE | - | x6 || 15 
3 —-|-i|i-|-4|- 6 25 | 一 一 | 二 | + 96 
14 +l- +/+- - 45 86 | | — | — | | + 28 
5 —|[-|c-b-4zj|-— 0 27* | 一 |+ 1 一 + | + 95 
16 +|+|1+1|1 +|1 一 8 28 | E | | — | + | + 27 
7 4 06 297 | — | | | 9 | + 99 
18 l 十 20 30 十 十 十 十 3l 
9 t t 13 31 = + + + 十 92 
20 T T = = T 15 32 T T T T T 32 
(D 1u— Ijmol/min— 16. 57nmol/s。 
按 上 节 所 讨论 的 方法 ,可 以 很 容易 地 算出 所 有 的 主 效 应 和 它们 的 交叉 效应 ,这 些 主 效应 和 
交叉 效应 的 具体 数值 列 于 表 3-8. 
磷酸 酶 活性 2 次 全 因子 主 效应 和 交叉 效应 结果 表 

子 估计 效应 7 估计 效应 子 估计 效应 子 估计 效应 

116. 00 ZP 1. 38 ZMP 2.25 PDA 0. 88 
ZD 12..25 ZMD 0.63 

Z 20.50 ZA 0. 75 ZMA — 2.38 ZMPD —0. 15 

M —0. 63 MP 1.50 ZPD 0.63 ZMPA 0. 50 

P = MD —2.13 ZPA = 13 ZMDA 1. 63 

D 10:25 MA —0. 88 ZDA 0.50 ZPDA 0. 13 

A —1.00 PD T. 3 MPD —1.:00 MPDA 1. 50 

PA 0.13 MPA —3. 00 
ZM 2. 13 DA —10. 25 MDA 1. 63 ZMPDA 0. 00 
采用 这 些 计算 所 得 的 主 效应 和 交叉 效应 的 数值 ， 可 得 到 如 图 3-7 所 示 的 效应 正 态 分 布 网 。 





从 图 3-7 可 以 很 清楚 地 看 出 ， 只 有 A (2- 氨 基 -2- 甲 基 -1- 丙 醇 )、D (对 硝 基 茶 基 砚 酸 二 





四 因子 设计 表 来 完成 ， 
是 ， 这 也 从 男 一 方面 说 
验 的 次 数 。 这 就 是 部 分 





请 注意 看 表 3-7， 在 此 表 中 对 某 些 试验 标 i 








明 25 次 全 因子 可 能 
因子 设计 的 基本 道理 。 

















钠 ) 和 2 ARE 这 三 个 主因 素 及 ZD (对 硝 基 葵 基础 酸 二 钠 和 硫酸 锌 的 交叉 效应 ) DA 
(2- 氮 基 -2- 甲 基 -1- 丙 醇 与 对 硝 基 茶 基 磷酸 二 钠 的 交叉 效应 ) 才 对 磷酸 酶 活性 有 显著 影响 ， 其 





也 的 主 效应 和 交叉 效应 都 可 以 忽略 。 这 个 结果 似乎 说 明 对 于 磷酸 酶 活性 的 试验 原本 就 可 只 | 
因为 pH 效应 本 身 就 不 显著 。 问 题 是 在 实验 前 没有 这 样 的 把 握 。 但 
E SUE TE fri I IA , 














完全 可 以 想 办 法 来 减少 试 


己 了 星 号 〈* )， 现 在 ， 从 表 3-7 中 将 它们 抽出 


以 作为 因子 设计 表 ， 并 只 用 它们 来 进行 主 效 应 和 交叉 效应 的 计算 ， 这样 可 以 得 到 如 表 3-9 所 
示 的 结果 ， 将 所 得 效应 数据 对 应 的 效应 正 态 分 布 图 示 于 



































是 很 有 道理 的 。 








图 3-8， 从 图 3-8 可 以 看 出 ， 所 得 结 
果 完 全 与 25 次 全 因子 效应 正 态 分 布 图 的 结果 一 致 ， 说 明 用 部 分 因子 设计 来 代替 全 因子 设计 
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25 "次 半 因 子 设 计 的 效应 正 态 分 布 图 


下 面 将 仔细 讨论 一 下 25 次 半 因 子 设计 的 基本 原理 及 在 部 分 因子 设计 中 十 分 重要 的 概 
用 表 3-7 中 标记 了 星 号 >) 的 试验 来 组 成 一 个 2 一 次 的 半 因 子 设 计 表 ， 并 用 它们 来 计 
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盐 要 计算 的 交叉 项 ， 按 前 节 所 讲 的 办 法 ， 将 它们 在 表 中 的 符号 相 乘 ， 根 据 正 正 得 正 、 负 负 


和 正 负 得 负 的 原则 ， 计 算出 所 有 交叉 项 的 符号 。 表 3-10 中 给 出 了 这 样 计算 所 得 的 部 分 
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EED 由 表 3-7 中 标记 ( * ) 的 试验 结果 所 算得 的 各 种 效应 值 





因 素 估计 效应 素 估计 效应 
平均 116. 00 ZM 3. 00 
ZP 3. 00 
Z 22.00 ZD 9. 25 
M —0. 50 ZA 一 0. 25 
P 1.50 MP 2. 00 
D 10. 75 MD — 2.25 
A 一 7.75 MA 一 0. 25 
PD —1. 25 
PA 0. 75 
DA — 8. 00 


由 2* 次 半 因 子 设计 表 所 算得 的 部 分 主 效应 和 交 义 效应 的 符号 结果 




















Z MPDA A ZMPD ZM PDA ZA MPD 
一 一 十 十 十 十 一 一 
十 十 一 一 一 一 一 一 
一 一 一 一 一 一 十 十 
十 一 十 十 十 十 - 十 
一 一 一 一 十 十 十 十 
十 十 十 十 一 一 十 E 
— - 十 十 z — - — 
+ 一 一 一 E 一 一 一 
一 一 一 一 E 十 十 E 
十 一 十 十 一 一 - E 
m z d 2: — xx " " 
E 十 一 一 d 十 一 一 
一 一 十 十 十 十 一 一 
十 一 一 一 一 

一 一 一 一 一 一 十 十 
十 一 十 十 十 十 十 十 














从 表 3-10 中 可 以 看 出 ， 主 效应 Z (硫酸 锌 ) 与 四 项 交叉 效应 MPDA 具有 完全 一 致 的 符 
号 ; 主 效应 A (2- 氨 基 -2- 甲 基 -1- 丙 醇 ) 与 四 项 交叉 效应 ZMPD 也 具有 完全 一 致 的 符号 ; 两 
项 交叉 效应 ZM 与 三 项 交叉 效应 PDA 也 具有 完全 相同 的 符号 等 等 。 这 种 情况 说 明 ，25 :次 
半 因 子 设计 的 效应 存在 重复 的 可 能 性 。 这 种 两 种 效应 具有 同一 符号 的 情况 ， 在 部 分 因子 设计 
中 ， 统 计 学 家 将 其 称 为 混杂 ( 共 现 ) 现象 ， 这些 同 符号 的 效应 将 称 为 混杂 〈 同 名 或 别名 ) 效 
应 。 对 于 用 表 3-7 中 标记 了 星 号 〈* ) 的 试验 值 来 组 成 的 25 :次 的 半 因 子 设 计 表 ， 算 得 的 所 
有 别名 效应 及 其 效应 值 都 列 于 表 3-11。 从 表 3-11 中 可 以 看 出 对 于 由 表 3-7 中 标记 了 星 号 
C) 的 试验 值 来 组 成 的 2 次 的 半 因 子 设计 表 ， 算 得 的 混杂 GA) 效应 一 般 都 发 生 在 主 
效应 与 四 项 交叉 效应 及 二 项 交叉 效应 与 三 项 交叉 效应 之 间 。 主 效应 与 二 项 交叉 效应 和 三 项 交 
又 效应 之 间 不 存在 混杂 〈 共 现 ) 现象 。 这 样 当 然 是 比较 理想 的 ， 因 为 一 般 说 来 ， 主 效应 和 二 
项 交叉 效应 都 比较 重要 ， 在 它们 之 间 发 生 混杂 ( 共 现 ) 现象 不 太 好 。 
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混杂 (别名 ) 效应 及 其 所 算得 的 效应 值 


















































估计 效应 dE 估计 效应 ER 估计 效应 P 估计 效应 
均值 +ZMPD4 | 116.00 | D--ZMPA 10. 75 ZD--MPA 9. 25 MA -- ZPD 一 0. 25 
Z+MPDA 22.00 | A+ZMPD —1. 15 ZA--MPD 一 0. 25 PD 十 ZMA —1. 25 
M--ZMDA —0.50 | ZM--PDA 3. 00 MP -- ZDA 2. 00 PA+ZMD 0. 75 
P--ZMDA .50 | ZP--MDA 3. 00 MD 十 ZPA 一 2. 25 DA 十 ZMP — 8. 00 

从 以 上 分 析 可 知 ， 对 于 五 因素 的 全 因子 设计 ， 用 半 因 子 设计 来 替代 ， 可 得 到 与 全 因子 设 
计 几 乎 相同 的 结果 ， 至 此 ， 很 自然 地 也 就 产生 了 这 样 的 问题 : 这 样 的 半 因 子 设 计 怎 样 构成 ? 








是 不 是 存在 多 种 构成 半 因 子 设计 的 可 能 ?” 如果 存 在 多 种 可 能 ， 怎 样 的 半 因 子 设计 才 是 最 好 
的 ? 在 以 下 的 讨论 中 将 逐一 回答 上 述 问题 。 
二 、 半 因子 设计 的 产生 方法 及 四 分 之 一 因子 设计 法 
一 个 构成 半 因 子 设计 的 简便 方法 就 是 先 设 定 一 个 混杂 〈 同 名 和 别名 ) 效应 ， 然 后 就 用 这 
个 混杂 (别名) 效应 来 产生 别 的 各 个 混杂 GZ) 效应 ， 以 构成 一 个 半 因 子 设 计 ， 这 样 设 定 
的 混杂 (别名 )〉 效 应 就 可 称 之 为 产生 子 。 现 仍 以 上 述 25-! 次 的 半 因 子 设 计 来 进行 说 明 。 
令 效 应 A (2- 氨 基 -2- 甲 基 -1- 丙 醇 ) 与 四 项 交叉 效应 ZMPD 同名 ， 则 
A —ZMPD (3-2) 
这 样 ， 可 得 到 一 个 定义 关系 或 定义 相反 
I —ZMPD x A —ZMPDA (3-3) 
利用 这 个 定义 关系 ， 可 产生 所 有 其 他 混杂 GZ) 效应 。 如 想得到 2 主 效应 的 混杂 (别名 ) 
效应 ， 则 可 将 这 个 定义 关系 与 Z 效应 相 乘 而 得 ， 即 
ZXI-—ZxZMPDA —Z? MPDA —MPDA (3-4) 
同 理 可 求 得 各 主 效应 的 混杂 〈 别 名 ) 效应 来 ， 它们 分别 为 M—ZPDA; P—ZMDA; D= 
ZMPA 。 对 于 二 项 交叉 效应 也 可 以 用 上 述 乘 法 原则 计算 ， 例 如 
ZM —ZM x ZMPDA —Z? M? PDA = PDA 
其 他 二 项 交叉 效应 也 可 仿 此 产生 ， 这 样 ， 就 得 到 了 与 表 3-11 完全 相同 的 混杂 (同名 或 别 
名 ) 表 。 
此 外 ， 如 果 定 义 Z 与 MPDA 同名 ， 则 有 2Z=MPDA ， 对 于 这 样 的 定义 ， 是 不 是 又 得 到 
了 一 个 不 同 的 半 因 子 设计 ” 注意 到 ， 对 于 Z=MPDA 这 样 定 义 的 产生 子 ， 虽 表面 上 看 来 与 
A-—ZMPD 不 同 ， 但 实际 上 它们 是 一 样 的 ， 这 是 因为 它们 定义 了 同一 个 定义 关系 工 ， 即 
I -Z x MPDA =A x ZMPD (3-5) 
所 以 ， 由 这 两 个 产生 子 产 生出 来 的 半 因 子 设计 实际 上 是 完全 一 样 的 。 当 然 ， 如 果 定 义 A= 
ZM 或 A=ZMP， 这 样 就 可 产生 不 同 的 新 半 因 子 设 计 ， 但 这 造成 了 主因 素 与 二 项 交叉 效应 
或 三 项 交叉 效应 的 混杂 〈 同 名) ， 从 而 使 得 该 部 分 因子 设计 的 分 辩 率 不 高 ， 下 一 节 将 给 出 较 
详细 讨论 。 在 此 ， 如 果 令 













































































A ——ZMPD 
此 时 ，T 王 一 AZMPD ， 它 确实 可 以 产生 一 个 与 TI 王 AZMPD 不 同 的 半 因 子 设计 ， 而 且 ， 将 
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这 两 个 设计 表 合 在 一 起 ， 就 可 成 为 一 个 完整 的 25 次 全 因子 设计 表 。 注 意 考 察 表 3-7， 如 将 表 
3-7 中 打 星 号 部 分 与 没 打 星 号 的 部 分 分 成 两 部 分 ， 则 这 两 部 分 就 恰好 相差 乘 一 个 负 号 。 这 在 
部 分 因子 设计 中 很 重要 ， 它 构成 部 分 因子 设计 表 可 从 全 因子 设计 表 分 块 而 得 的 基本 思想 。 并 
且 ， 有 人 还 建议 ， 如 果 想 用 序 贯 试验 来 进行 试验 设计 ， 就 可 先 用 定义 关系 TI 一 AZMPD 来 进 
行 第 一 批 试 验 ， 然 后 ， 根 据 试验 结果 看 有 没有 必要 ， 再 用 IT= 一 AZMPD 来 进行 下 一 批 试 
验 ， 这 样 就 可 以 做 到 既 能 有 效 地 利用 部 分 试验 优点 ， 在 必要 时 ， 又 可 得 到 全 因子 试验 设计 所 
需 的 全 部 有 用 信息 站。 

如 前 所 述 ， 当 因子 数 很 多 时 ， 半 因子 设计 的 试验 次 数 仍然 不 少 ， 对 于 在 此 讨论 的 磷酸 酶 
活性 的 实验 ， 实 际 上 还 可 加 上 一 个 温度 因素 (TT)， 这样， 对 于 全 因子 设计 就 需要 做 64 次 试 
验 了 ， 即 使 使 用 半 因 子 设 计 仍 有 32 次 试验 数 ， 所 以 ,统计 学 家 就 提出 了 一 种 四 分 之 一 部 分 
因子 设计 法 ， 在 统计 学 文献 中 也 称 为 25 次 部 分 因子 设计 法 ， 从 而 使 试验 数 仍 保持 为 16 
次 。 从 前 述 的 分 析 中 ， 可 以 很 容易 理解 ， 对 于 四 分 之 一 部 分 因子 设计 法 ， 除 去 原来 半 因 子 设 
计 已 有 的 混杂 CAO 效应 外 ， 还 会 产生 新 的 混杂 〈 同 名 ) 效应 ， 即 存在 四 个 混杂 (同名 ) 
效应 。 下 面 将 介绍 四 分 之 一 部 分 因子 设计 法 的 产生 方法 。 首 先 ， 仍 用 半 因 子 设计 的 产生 子 
4=ZMPD， 然 后 再 加 上 一 个 与 温度 (T) 有 关 的 新 的 产生 子 ， 即 工 =ZMP 。 这 样 ， 对 于 
四 分 之 一 部 分 因子 设计 ， 就 得 到 了 两 个 定义 关系 ， 即 

I —ZMPDA (3-62) 

























































































和 I —ZMPT (3-6b) 
第 三 个 定义 关系 可 通过 式 (3-62) 和 式 (3-6b) 两 个 定义 关系 相 乘 而 得 : 
I -ZMPDA X ZMPT —Z'M?P! DAT —DAT (3-7) 


通过 上 述 三 个 定义 关系 ， 就 可 以 算出 所 有 的 混杂 〈 同 名 ) 效应 来 ， 如 要 求 ZM 的 混杂 Clu] 
名 ) 效应 时 ， 就 可 以 用 下 述 三 个 式 子 计 算 而 得 : 

















ZM =ZM X ZMPDA = PDA (3-8a) 
ZM —ZM X ZMPT —PT (3-8b) 
ZM —ZM X DAT —ZMDAT (3-80) 














由 此 算得 的 四 分 之 一 部 分 因子 设计 的 所 有 同名 结果 列 于 表 3-12, 


四 分 之 一 部 分 因子 设计 的 混杂 (同名 ) 效应 表 
混杂 (同名 ) 效 应 





总 平均 = ZMPDA = ZMPT = DAT 
Z ES MPDA = MPT € ZDAT 
M = ZPDA = ZPT = MDAT 
P = ZMDA = ZMT = MDAT 
D = ZMPA = ZMPDT — AT 
A = ZMPD = ZMPAT = DT 

ZM = PDA = PT = ZMDAT 
ZP = MDA zx MT x ZPDAT 
ZD = MPA = MPDT x ZAT 
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续 表 
混杂 (同名 ) 效 应 

ZA = MPD = MPAT = ZDT 
MP = ZDA = ZT = MPDAT 
MD = ZPA = ZPDT — MAT 
MA = ZPD = ZPAT = MDT 
PD x ZMA = ZMDT = PAT 
PA = ZMD = ZMAT = PDT 
DA = ZMP = ZMPDAT = T 




















就 像 半 因子 设计 一 样 ， 四 分 之 一 部 分 因子 设计 也 可 通过 对 全 因子 设计 表 进 行 分 块 后 得 到 
不 同 的 但 却 具 有 同样 分 辩 率 的 部 分 因子 设计 表 ， 而 且 ， 将 它们 合 在 一 起 就 成 为 了 六 因素 全 因 
子 设计 表 ， 故 也 可 以 用 于 进行 序 贯 试验 。 它 们 具体 可 由 下 述 不 同 的 定义 关系 来 构成 : 




















I —ZMPDA —ZMPT —DAT (3-9a) 
I ——ZMPDA ——ZMPT —DAT (3-9b) 
I —-ZMPDA — —ZMPT ——DAT (3-9c) 
I ——ZMPDA —ZMPT ——DAT (3-94) 





式 中 ,第 一 个 [ 式 (3-9a) ] 是 原来 的 四 分 之 一 部 分 因子 设计 ， 而 其 余 的 三 个 [ 式 (3- 
9b) 一 式 〈3-9d) ] 则 是 由 对 第 一 个 设计 的 三 个 定义 关系 中 ， 任 意 改变 两 个 定义 关系 的 符号 而 得 。 


三 、 因 子 设计 分 辨 率 


因子 设计 的 分 辨 率 是 因子 试验 设计 中 的 一 个 很 重要 的 概念 ， 一 般 说 来 ， 分 辩 率 越 高 的 部 
分 因子 设计 越 好 。 对 于 在 上 一 节 讨 论 的 2 次 部 分 因子 设计 〈 即 其 定义 关系 为 TI 一 ZMPDA 

















的 那个 设计 )， 其 分 辨 率 为 5; 而 对 于 定义 关系 为 1 二 AZMP 的 2 次 部 分 因子 设计 ， 其 分 
辩 率 为 4。 从 这 里 可 以 看 到 ,定义 关系 由 几 个 因素 组 成 ， 该 设计 的 分 辩 率 就 是 几 。 值 得 提出 














的 是 ， 对 于 定义 关系 为 1 二 ZMPDA 的 半 因 子 设计 ， 它 的 主 效应 主要 与 四 项 交叉 效应 混杂 
( 共 现 )， 二 项 交叉 效应 主要 与 三 项 交 义 效应 混杂 ( 共 现 ); 但 对 于 定义 关系 为 1 二 ZMPD 的 
半 因 子 设 计 ， 它 的 主 效应 将 主要 与 三 项 交叉 效应 混杂 〈( 共 现 )， 二 项 交叉 效应 则 与 四 项 交叉 
效应 混杂 ( 共 现 )， 这 样 将 可 能 丢失 一 些 重要 的 三 项 交叉 效应 的 信息 。 因 此 ， 一般 可 以 认为 ， 


























三 项 交叉 效应 比 四 项 交叉 效应 更 重要 ， 所 以 ,分 辨 率 为 5 的 部 分 因子 设计 比分 辩 率 为 4 的 部 
分 因子 设计 好 。 
因子 设计 分 辨 率 的 正式 定义 为 : 设计 的 分 辨 率 为 R 的 部 分 因子 设计 为 ， 在 这 样 的 因子 


设计 中 ,没有 p 项 交叉 效应 与 (R 一 p) 项 交叉 效应 共 现 现象 的 存在 。 值 得 指出 的 是 ， 这 一 
原始 定义 由 Boxand 给 出 ' 引 ,但 现在 有 人 提出 ， 此 定义 还 并 不 完善 ， 需 要 修改 。 有 关 这 方面 
的 进一步 讨论 ， 读 者 可 参见 文献 [6]。 部 分 因子 设计 在 文献 中 的 表述 一 般 为 数字 或 罗马 数 
字 ， 例 如 ， 对 于 25 1! 次 部 分 因子 设计 的 分 辩 率 可 表示 如 下 : 

25 CCV); 2 0 3 


上 述 符 号 就 分 别 表示 分 辩 率 为 5 和 分 辩 率 为 4 的 25 次 部 分 因子 设计 。 
上 述 给 出 的 分 辨 率 ， 一 般 都 遵循 以 下 三 条 原则 : 
(OD 一 个 具有 分 辨 率 为 3CR — ID. 的 部 分 因子 设计 ， 其 主 效应 之 间 不 存在 混杂 ( 共 现 ) 
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现象 ， 但 是 主 效应 一 般 都 与 二 项 交叉 效应 存在 混杂 〈 共 现 ) 关系 。 

@ 一 个 具有 分 辨 率 为 4(R 二 入 )〉 的 部 分 因子 设计 ， 其 主 效 应 之 间 不 存在 混杂 〈 共 现 ) 
现象 ， 同 时 主 效应 与 二 项 交叉 效应 也 不 存在 混杂 〈 共 现 ) 现象 ， 但 是 ， 主 效应 一 般 都 与 三 项 
交叉 效应 存在 混杂 〈 共 现 ) 关系 。 

O —^4 HAB A HEN SOR — Vo 的 部 分 因子 设计 ， 其 主 效应 之 间 、 主 效应 与 二 项 交叉 
效应 及 三 项 交叉 效应 之 间 不 存在 混杂 〈 共 现 ) 现象 ， 但 是 ， 主 效应 与 四 项 交叉 效应 、 二 项 交 
又 效应 与 三 项 交叉 效应 之 间 却 存在 着 混杂 ( 共 现 ) 关系 。 

一 般 说 来 ， 构 成 一 个 高 分 辨 的 半 因 子 设计 的 方法 很 简单 ， 就 是 直接 将 最 后 一 个 主 效应 与 
前 面 所 有 因子 的 交叉 效应 构成 一 个 产生 子 ， 以 得 到 一 个 包括 个 因素 在 内 的 定义 关系 ， 其 
余 的 因素 的 主 效 应 及 各 项 交叉 效应 就 可 由 此 产生 。 另 外 ， 一 般 说 来 ， 对 于 分 辩 率 为 3 的 部 分 
因子 设计 ， 因 为 主 效应 一 般 都 与 二 项 交叉 效应 存在 着 混杂 〈 共 现 ) 现象 ， 所 以 ， 这 样 的 试验 
设计 一 般 主要 用 来 研究 主 效应 ， 此 时 ， 这 样 的 试验 设计 一 般 称 为 饱和 设计 。 

值得 提出 的 是 ， 对 于 因子 设计 的 研究 现在 仍 未 间断 ， 有 人 提出 了 现代 因子 设计 理论 ， 可 
将 任 一 因子 设计 中 的 主 效应 和 交叉 效应 的 计算 统一 在 一 个 式 子 里 ， 而 且 对 因子 设计 的 分 块 、 
因子 设计 与 最 优 设计 的 关系 等 都 进行 了 详细 的 讨论 ， 有 兴趣 的 读者 可 参阅 文献 [7]， 在 此 不 
作 更 多 的 介绍 。 






































第 三 方 ” 正 交 试 验 设计 和 正 交 设计 表 


、 正 交 实 验 设 计 


本 节 将 讨论 的 正 交 试验 设计 从 本 质 上 来 说 ， 实 际 可 以 算 作 是 一 种 部 分 因子 设计 方法 ， 
其 主要 特征 是 它 是 基于 正 交 表 来 进行 试验 设计 和 数据 分 析 的 ， 故 有 正 交 试验 设计 之 称 。 什 么 
是 “ 正 交 表 ”? 在 定义 正 交 表 之 前 ， 有 必要 先 介 绍 “ 完 全 对 ”的 概念 。 
设 有 两 组 元 素 (aj. as. s ap) 与 (bi. b2; s bm), MWA nXm 个 “元 素 对 ”: 
Cais b1), Cais 02), c. Cais bm) 
(ao. bı), Caz, b2), e, Cas. bm) 
(as. b1), (azs b2), c. (azs bm) 























Cia bi), ans b2), dai. Cu Dm) 
上 述 数 表 为 两 组 元 素 构成 的 “完全 对 ”。 如 一 个 矩阵 的 某 两 列 中 ， 同 行 元 素 所 构成 的 元 素 对 
就 是 一 个 完全 对 ， 如 果 在 此 两 列 中 ， 每 对 出 现 的 次 数 也 相同 ， 则 称 这 两 列 搭配 均衡 ， 和 否则 为 
搭配 不 均衡 。 例 如 ， 下 述 左 侧 和 矩阵 的 两 列 搭配 是 均衡 的 ， 而 右 侧 和 矩阵 的 两 列 则 搭配 不 均衡 。 
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对 于 一 个 (n Xm) 阶 矩 阵 4， 它 的 第 7 列 的 元 素 由 数码 1,2,… ,tj Cj — 1.2» m TJ 
成 ， 如 该 矩阵 的 任意 两 列 都 搭配 均衡 ， 则 称 和 矩阵 4 为 一 个 正 交 表 。 这 里 称 和 矩阵 为 表 ， 因 其 
可 写成 表格 的 形式 ， 常 简 记 为 





Ln Gitotg*tnt,) (3-10) 
是正 交 表 的 代号 ， 来 源 于 拉丁 方 (latin square) 这 一 试验 设计 表 的 第 一 个 字母 ，n 表示 共 
En 次 试验 ， 而 zj 二 1,2,…,m) 则 代表 第 j 列 由 zj 个 水 平 组 成 。 如 所 有 zj; 均 相等 ， 则 可 记 
为 Lv (tw) ， 称 为 上 水 平 正 交 表 。 如 两 列 水 平 数 不 相等 时 ， 则 称 为 混合 型 正 交 表 。 用 正 交 表 
来 安排 试验 ， 可 以 达到 以 很 小 的 试验 次 数 来 最 大 限度 地 获取 有 关 各 因素 主 效 应 及 交叉 效应 的 
言 息 。 有 关 正 交 试 验 的 理论 分 析 ， 读 者 可 参阅 文献 [8j]。 对 于 正 交 试验 的 理论 分 析 可 以 说 
明 ， 从 各 种 角度 与 标准 衡量 ， 正 交 设 计 都 是 一 种 最 优 设计 。 下 面 将 主要 对 如 何 使 用 正 交 设计 
表 来 作出 具体 说 明 。 


二 、 正 交 表 及 其 交互 效应 表 


对 于 每 一 张 正 交 表 ， 都 有 一 张 两 列 间 的 交互 效应 表 与 之 对 应 ， 如 Ls(27) 的 两 列 间 交 互 
效应 表 见 表 3-13, 


Ls (27) 的 两 列 间 交 互 效应 表 












































列 号 1 2 3 4 5 6 1 
a) 3 2 5 4 7 6 

(2) 1 6 7 4 5 

(3) 7 6 5 4 

(4) 1 2 3 

(5) 3 2 

(6) 1 

(7) 








从 表 中 可 查 出 第 1 列 (1) 与 第 2 列 [ 由 (1) 所 在 行 从 左 向 右 横 向 找到 2] 的 交互 效应 
是 第 3 列 ， 与 第 4 列 的 交互 效应 是 第 5 P. ee ， 如 此 等 等 ， 可 在 表 中 找 出 任 一 列 的 交互 效 
应 列 。 下 面 以 一 个 简单 的 例子 来 说 明 怎 样 用 正 交 表 进 行 试验 设计 和 数据 分 析 。 

设 有 一 化 学 反应 ， 需 考察 四 个 实验 条 件 的 影响 : 四 反应 温度 CAO; 四 反应 时 间 (B); 
Gh mV EE (C); @ 反 应 压力 CD)， 并 设 各 条 件 均 是 两 个 水 平 。A 的 两 个 水 平 为 : 60%C 
与 80C; B 的 两 个 水 平 为 : 2.5h 与 3.5h; C 的 两 个 水 平 为 : 1.1/1 M 1.2/1; D 的 两 个 水 
平 为 : 6.7X104Pa 和 8.0X104Pa。 如 想 只 做 8 次 试验 ， 可 选择 Ls(27) 表 (参见 表 3-14) 
来 安排 试验 。 从 表 中 可 以 看 出 ， 正 交 表 的 每 两 列 都 是 搭配 均衡 的 。 因 在 这 个 试验 中 主要 想 考 
XA (反应 温度 ) 与 B (反应 时 间 )、A (反应 温度 ) 与 C (反应 物 配 比 ) 及 B (反应 时 间 ) 
5C (反应 物 配 比 ) 的 交叉 效应 ， 根 据 Ls(27) 表 和 其 交互 效应 表 (参见 表 3-13)， 可 将 A 
因素 定 在 Ls (27 ) 表 的 第 1 列 ，B 因素 定 在 La C27). 表 的 第 2 列 。 从 Ls C27). 的 交互 效应 表 
知 ， 第 1 列 与 第 2 列 的 交叉 效应 在 第 3 列 ， 将 其 空 出 ,将 C 因素 定 在 第 4 列 ， 再 由 交互 效应 
表 知 ， 第 1 列 与 第 4 列 的 交互 效应 在 第 5 列 ， 故 也 需 将 第 5 列 空 出 ， 再 根据 交互 效应 表 找 出 
B 因素 与 C 因素 的 交互 效应 列 ， 即 第 2 列 与 第 4 列 的 交互 效应 列 ， 从 交互 效应 表 可 找 出 它们 
的 交互 效应 列 是 第 6 列 ， 也 将 其 空 出 。 于 是 ，D 因素 就 定 在 第 7 列 了 。 






























































053 | 











第 三 化 学 试验 设计 与 优化 方法 

Ls (27 ) IE E i 08 

试 验 号 列 号 1 2 3 4 5 6 7 
1 1 1 1 1 1 1 1 
2 1 1 1 2 2 2 2 
3 1 2 2 1 1 2 2 
4 1 2 2 2 2 1 1 
5 2 1 2 1 2 1 2 
6 2 1 2 2 1 2 1 
7 2 2 1 1 2 2 1 
8 2 2 1 2 1 1 2 

O 表 中 将 上 一 节 所 用 的 负 号 用 1 来 代替 ， 正 号 用 2 来 代替 ， 这 样 可 容易 将 正 交 表 推 广 至 多 水 平 。 


















































按 这 样 定 下 各 因素 列 号 后 ， 就 可 根据 Ls (27 ) 正 交 表 来 安排 试验 了 。 根 据 试 验 得 到 的 结 
果 ， 对 各 交叉 项 效应 进行 估价 。 因 为 在 Ls(27) 正 交 表 中 就 可 得 到 各 交叉 项 效应 的 符号 (在 
此 1 为 正 ，2 为 负 ), 采用 上 节 所 述 方法 ， 容 易 估 价 出 我 们 感 兴趣 的 交叉 项 效应 ， 同 样 ， 还 
可 以 用 上 节 所 述 的 效应 正 态 分 布 图 来 对 它们 进行 显著 性 估价 。 


三 、 正 交 设 计 表 的 线性 图 及 其 应 用 


对 于 正 交 设计 的 试验 安排 ， 除 交互 效应 表 外 ， 还 有 一 个 很 重要 的 工具 是 正 交 设计 表 的 线 
性 图 ， 这 一 方 将 对 此 作出 较 详细 的 介绍 。 
对 于 不 同 的 正 交 表 ， 都 存在 其 相应 的 标准 线性 图 。 对 Ls (2?〉 正 交 表 来 说 ， 其 标准 线性 
图 如 图 3-9 所 示 。 下 面 我 们 将 以 此 来 对 正 交 表 的 线性 图 的 使 用 加 以 说 明 。 


^l 
3 5 
7 4 
+ v 
2 6 4 


(a) (b) 
Le (27) 正 交 表 的 标准 线性 图 
























































E7 








由 图 3-9 所 示 的 Ls 27) 正 交 表 的 两 个 标准 线性 图 包括 以 下 信息 : 
(OD 线性 图 3-9 (a) 图 中 的 点 及 其 相应 的 数码 代表 Ls(27) 正 交 表 的 列 ， 图 中 的 连 线 
及 其 相应 的 数码 也 代表 Ls(27) 正 交 表 中 的 某 一 列 ， 只 是 这 样 的 列 是 表示 其 线条 相连 的 两 个 
点 所 代表 的 两 列 的 交互 效应 。 从 图 3-9 (GO 中 可 以 看 到 ， 该 图 有 四 个 顶点 ， 即 点 1、2、4、 
7， 其 中 1、2、4 点 有 线 相 连 ， 而 7 点 为 一 孤立 点 。 这 就 说 明 ， 在 Ls(27) 正 交 表 中 , 第 1 
人 4 列 的 交互 效应 列 是 第 5 列 ， 第 2 列 与 第 4 
列 的 交互 效应 列 是 第 6 列 。 第 7 点 孤立 ， 即 说 明 在 Ls(27) 正 交 表 中 不 存在 与 第 7 列 有 交互 
效应 的 列 。 从 上 述 讨论 6 可知 ， 线 性 图 的 顶 训 及 对 应 的 列 ， 可 用 于 安 状 试 验 的 各 个 因 农 ， 如 
于 上 节 所 讨论 的 一 个 四 因素 试验 ， 就 可 将 它们 安排 在 顶点 1、2、4、7 所 对 应 的 Ls (27) E 
交 表 的 列 之 上 ， 对 那些 需要 调查 交互 效应 的 因素 要 尽量 安排 在 顶点 1、2、4 之 上 ， 这 与 上 节 
所 介绍 的 方法 是 一 致 的 。 
(2) 线性 图 3-9 b 图 中 顶点 和 连 线 的 实际 意义 同 线性 图 (a)， 顶 点 为 1、2、4、7， 
一 不 同 之 点 是 ， 在 这 种 试验 设计 的 方案 中 ， 是 以 Ls (2”") 正 交 表 中 的 第 1 列 为 中 心 ， 交 又 
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Suc mc RS 第 4 和 第 7 顶点 之 间 的 ， 即 Ls OO 正 交 表 中 的 第 
第 1 列 与 第 7 列 的 交叉 效应 。 所 以 ， 在 安排 试验 时 ， 
别 重 要 。 











列 、 第 1 列 与 第 4 列 、 
TERR 1, 2. 4, 7 Z b. 而且, 第 1 点 的 选择 特 











1 列 与 第 2 
将 各 个 因素 安排 








上 述 两 种 正 交 设计 的 线性 图 都 可 从 交互 效应 表 中 导出 ， 对 照 交 互 效应 表 ， 都 可 找到 它们 





的 可 能 组 合 。 所 以 ， 正 交 表 的 线性 图 与 交互 效应 表 是 一 致 的 ， 
EET. 
四 、 常 用 正 交 表 及 相应 交互 效应 表 和 线性 图 


本 节 将 给 出 一 些 常用 的 正 交 表 及 相应 
些 表 格 ， 在 此 作出 几 点 相应 说 明 。 
(OD 正 交 表 常 记 为 


L, Gi X t» X t3 AX tet 
L 是正 交 表 的 代号 ， 来 源 于 拉丁 方 (latin square). 这 一 试验 设计 表 的 第 一 
AKFAR. WA SE, NU 
可 记 为 L(t*)， 称 为 1 水平 正 交 表 。 如 两 列 水 平 数 不 相 等 时 ， 
L,GT Xt). Wl La; 21 X 49). 就 表示 试验 次 数 为 32， 其 中 一 列 的 水 平 数 为 2， 





做 7 次 试验 ， Wiz; G51, 25 dE m) 则 代表 第 7 





平 数 为 4 的 正 交 设计 表 。 


交互 效应 








Ni 





Jl m t 





(2) 利用 交互 效应 表 ， 可 方便 进行 交互 效应 估计 。 





(3) 在 正 交 表 中 ， 不 同 的 列 可 分 成 不 同 的 组 ， 
据 不 同 组 的 列 ， 运 用 线性 图 即 可 方便 组 织 试 验 。 


LEBB 正 交 试验 表 汇集 
(OD LEOD EZREK” 


























试验 号 1 2 ? 
1 1 1 1 
2 1 Y A 
3 2 1 A 
4 2 2 1 
^ * * 
O 4. 5—: 05 
(2) Ls (2") 正 交 试 验 表 ? 
试验 号 2m 1 2 3 4 5 6 T 
1 1 1 1 
2 l 1 1 2 2 2 2 
3 1 2 2 2 2 
4 1 2 2 2 2 1 
5 2 1 2 KA 2 
6 2 1 2 2 2 
7 2 2 1 2 2 
8 2 2 1 2 2 
ov 9 
Q4. 第 一 组 ; 多: fW V. 第 三 组 





只 不 过 线性 








图 使 用 起 来 更 为 方 


表 和 线性 图 ， 以 备 读 考查 用 。 对 给 出 的 这 


个 字母 ; n 表示 共 


则 称 为 混合 型 正 交 表 ， 记 为 
另 9 列 的 水 























以 方便 运用 线性 图 进行 交互 效应 估计 ， 根 
L4 线性 图 : 
12 3 
h- + 
Ls 线性 图 : 
*2 
3 
T 4 一 9 
3 5 4 
MC 6 
e€——————— 
2 6 4 v; 
(OD (2) 
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(2a) Ls (2 ) 的 两 列 间 交互 效应 表 
列 号 1 2 3 4 5 6 7 
(1) 3 2 5 4 7 6 
(2) 1 6 $ 4 5 
(3) 7 6 5 4 
(4) 1 2 3 
(5) 3 2 
(6) 1 
(D) 
(3) Lis(27) 正 交 试 验 表 ? 
NE 列 号 1 2 3 4 5 6 7 8 9 10 11 
试验 号 
1 1 1 1 1 1 i 1 1 1 
2 1 1 1 2 2 2 2 2 2 
3 1 2 2 2 1 1 1 2 2 2 
4 y 1 2 2 1 2 y 1 2 
5 2 2 1 2 2 1 2 1 PA q 
6 2 2 A 1 2 2 1 A 1 
T 2 1 2 2 1 1 2 2 l 2 1 
8 2 1 2 1 2 2 2 1 1 2 
9 2 1 1 2 2 2 1 2 2 1 1 
10 2 2 2 1 1 1 1 2 2 2 
1l 2 2 1 2 1 2 1 1 1 2 2 
12 2 2. 1 1 2 1 2 1 2 2 1 
^ 4 + + + 多 + + + 多 + 
QD 4. 第 一 组 ， 多 : 第 二 组 。 
注 ， 因为 此 正 交 表 的 第 二 组 10 列 与 交 义 项 “ 共 现 ”， 所 以 ， 此 表 最 好 不 要 用 于 有 交叉 项 效应 的 试验 设计 。 
(QD Li, CD EZREK? 
SES 列 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
试验 号 
1 1 il 1 1 1 1 1 1 1 1 1 1 
2 1 1 1 1 1 1 2 2 2 2 2 2 2 2 
3 1 1 2 2 2 2 1 1 2 2 2 2 
4 1 1 2 y 2 2 p) 2 2 2 1 1 1 
5 2 2 1 1 2 2 2 2 1 1 2 2 
6 2 2 1 1 2 2 2. 2 2 2 1 
7 2 2 v 1 1 2 2 2 2 1 
8 2 2 2 2 1 1 2 2 1 1 1 1 2 2 
9 2 1 2 li 2 1 2 2 i 2 1 2 1 2 
10 2 1 A 1 2 t A 2 1 2 2 T 2 1 
1l 2 1 2 2 1 2 1 2 1 2 2 1 2 1 
12 2 1 2 2 1 2 1 2 1 2 1 1 2 1 2 
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列 号 | 1 8) 3 4 5 6 1 8 9 10 11 12 13 14 15 
试验 号 
13 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 
14 2 2 1 1 2 2 1 2 1 1 2 2 il 1 2 
15 2 2 1 2 1 1 2 1 2 2 1 2 1 1 2 
16 2 2 1 2 1 1 2 2 1 1 2 1 2 2 1 
^ + + v v v v ^ ^ ^ ^ ^ ^ ^ ^ 
(D 史 : 第 一 组 ;全 :第 二 组 ; 音 : 第 三 组 ;会 :第 四 组 。 
Ca) Lis(2”) 的 两 列 间 交 互 效应 表 
列 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
a) 3 2 5 4 7 6 9 8 11 10 13 12 15 14 
(2) 1 6 7 4 5 0 1 8 9 14 15 12 13 
(3) 7 6 5 4 1 0 9 8 15 14 13 12 
(4) 1 2 3 12 13 14 15 8 9 10 11 
(5) 3 2 13 12 15 14 9 8 11 10 
(6) 1 4 5 12 13 10 11 8 9 
(7) 15 14 13 12 11 10 9 8 
(8) 1 2 3 4 5 6 7 
(9) 3 2 5 4 7 6 
(10 1 6 7 4 5 
(aD 7 6 5 4 
(2) 1 2 3 
(13 3 2 
(14) 1 
Ls 部 分 线性 图 : 
(D 
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(5) L,(3) 正 交 试 验 表 ? 
SS 5I 1 2 3 tem 列 号 1 2 3 4 
1 1 1 1 6 2 3 1 2 
2 1 2 2 2 y 3 1 3 2 
3 1 3 3 3 8 3 2 1 3 
4 2 1 2 3 9 3 E) 2 1 
5 2 2 3 1 ^ * * * 
QD. 第 一 组 ; e. 第 二 组 。 
L, 线性 图 : 
1 3,4 2 
: ERE * 
(6) Lis 21 X37 ) 正 交 试 验 表 人 
TE 列 号 1 2 3 4 5 6 7 8 
1 1 1 1 1 1 1 1 1 
2 1 1 2 2 2 2 2 2 
3 1 3 3 3 3 3 3 
4 1 2 1 1 2 2 3 3 
5 i 2 2 2 3 E 1 1 
6 A 3 3 1 1 2 2 
7 3 1 2 1 3 2 3 
8 1 3 2 3 2 1 3 1 
9 1 3 3 1 3 2 1 2 
10 2 1 1 3 3 2 2 1 
1 2 1 2 1 1 3 9 2 
2 2 1 3 yi y 1 1 3 
13 2 2 1 2 3 1 3 2 
14 2 2 2 3 1 2 1 3 
5 2 2 3 1 2 3 2 1 
6 2 3 1 3 2 3 1 2 
17 2 3 2 1 3 1 2 3 
8 2 3 3 2 1 2 3 1 
^ e v v v v 9 * 




















Op: 第 一 组 ; 9. 第 二 组 ; V: 第 三 组 
ik: 同 Liz， 因 为 交叉 项 “ 共 现 ”， 此 表 最 好 不 要 用 于 有 交叉 项 效应 的 试验 设计 。 
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试验 号 列 号 1 2 3 4 5 6 q 8 9 10 11 12 13 
1 1 1 i 1 1 1 1 1 1 1 1 1 
2 1 1 1 2 2 2 2 2 2 2 2 2 
3 1 1 1 3 3 3 3 3 3 3 3 3 
4 2 2 2 1 1 1 2 2 2 3 3 3 
5 2 2 2 2 2 2 3 3 3 1 1 1 
6 2 2 2 3 3 3 1 1 1 2 2 2 
3 3 3 1 1 1 3 3 3 2 2 2 
8 3 3 3 2 2 2 1 1 1 3 3 3 
9 3 3 3 3 3 3 2 2 2 i 1 1 
0 2 1 2 3 1 2 3 1 2 3 1 2 3 
11 3 1 2 3 2 3 1 2 3 1 2 3 1 
2 2 1 2 3 3 1 2 3 1 2 3 1 2 
13 2 2 3 1 1 2 3 2 3 1 3 1 2 
4 2 3 1 2 3 1 3 1 2 1 2 3 
15 2 2 3 1 3 1 2 1 2 3 2 3 1 
6 2 3 1 2 1 2 3 3 1 2 2 3 1 
17 2 3 1 2 2 3 1 1 2 3 3 1 2 
8 2 3 1 2 3 1 2 2 3 1 1 2 3 
19 3 1 3 2 1 3 2 1 3 2 1 3 2 

20 3 1 3 2 2 1 3 2 1 3 2 1 3 
21 3 1 3 2 3 2 1 3 2 1 3 2 1 
22 3 2 1 3 1 3 2 2 1 3 3 2 1 
23 3 2 1 3 2 1 3 3 2 1 1 3 2 
24 3 2 1 3 3 2 1 1 3 2 2 1 3 
25 3 3 2 1 1 3 2 3 2 Í 2 1 3 
26 3 3 2 1 2 1 3 1 3 2 3 2 1 
27 3 3 2 1 3 2 1 2 1 3 1 3 2 
^ * + + v v v v v v v v v 

Ca) Lzi(3”) 的 两 列 间 交 互 效应 表 
列 号 1 2 3 4 5 6 7) 8 9 10 11 12 13 
a) 3 2 2 6 5 5 9 8 8 12 11 11 
4 4 3 7 7 6 0 0 9 13 13 12 
(2) 1 1 8 9 0 5 6 7 5 6 7 
4 3 11 12 13 1 2 13 8 9 10 
(3) 1 9 10 8 7 5 6 6 7 5 
2 13 11 12 2 3 11 10 8 9 
(4) 10 8 9 6 7 5 7 5 6 
12 13 11 3 1 12 9 10 8 
(5) 1 1 2 3 4 2 4 3 
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EK 
5» 号 2 3 4 5 6 7 8 9 10 11 12 13 
7 6 11 3 12 8 19 9 
(6) 1 4 2 3 3 2 4 
5 13 2 1l 10 9 8 
(7) 9 4 v 4 3 2 
12 1 13 9 8 10 
(8) 1 1 A 3 4 
0 9 5 7 6 
(9) 1 4 2 3 
8 7 6 5 
(10) d 4 2 
6 5 7 
(1D) 1 1 
13 12 
(12) 1 
11 
Lor 部 分 线性 
1 
中 
p E 
X sm Y 
+2 E! 
aL S WE V 
215 TIS w 
12,13 412 
vil v10 
(8) L,, 40 EAE TAS 6 
试验 号 列 号 1 3 4 5 试验 号 列 号 1 2 3 4 5 
1 1 1 1 1 9 3 1 3 4 2 
2 1 2 2 2 0 3 v 4 3 1 
3 1 3 3 3 1 3 3 1 2 4 
4 1 4 4 4 2 d 4 2 1 3 
5 2 2 23 4 3 4 1 4 2 3 
6 2 1 4 3 14 4 2 3 1 4 
7 2 4 1 2 5 4 3 2 4 1 
8 2 9 2 1 6 4 4 1 3 2 
^? 9 9 9€ 
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(9) Le (2 x4) 正 交 试验 表 ? 






















































































sara al 2 3 4 5 6 
试验 号 试验 号 
1 1 1 1 18 2 1 2 3 2 3 
2 1 1 2 2 2 2 2 2 2 2 19 2 1 3 2 3 2 
3 1 1 3 3 3 3 3 3 3 3 20 2 1 4 4 
4 1 1 4 4 4 4 4 4 4 4 21 2 2 4 2 3 
5 2 1 2 2 3 3 4 4 22 2 2 2 3 
6 2 2 2 4 3 3 23 2 2 3 2 
7 2 3 3 1 2 2 24 2 2 4 1 3 2 3 
8 2 4 4 3 3 2 2 1 1 25 2 3 1 3 3 2 
9 1 3 2 3 4 1 2 3 4 26 2 3 2 4 4 2 
10 l 3 2 4 3 2 4 3 27 2 3 3 3 
11 1 3 3 4 1 2 3 4 2 28 2 3 4 2 2 4 
12 1 3 4 3 2 1 4 3 2 29 2 4 3 4 
3 4 1 2 3 3 4 2 1 30 2 4 2 4 3 
4 4 2 l 3 3 J 2 31 2 4 3 1 2 
5 4 3 4 2 2 4 3 32 2 4 4 2 
6 4 4 3 2 2 1 8 4 ^ 99999 
17 2 1 1 4 1 4 2 3 2 3 
Op: 第 一 组 ; 9. 第 二 组 ; V: 第 三 组 
注 : 同 Lam， 因为 交叉 项 “ 共 现 ”(confounded) ， 此 表 最 好 不 要 用 于 有 交叉 项 效应 的 试验 设计 。 














(10) Lo (4”) 正 交 试 验 表 









































AS |1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 
试验 号 

1 1 1 i 1 y» 4 d 1 1 1 1 
2 | d X1 Y Eo xX Y» 2 E 2 $ md $ ex X 3 
3 p UE ds do Go — 3 15 X 239 de o3 R$ o3 X* 3 
4 1 1 1) 1 1) 4 4 4 4 4 4 4 4 4 4 4 4 
5 p] d 2 e Ue qp d o do iZ% a CE 3 a 7E 738 
6 1 2 2 2 2 2 2 2 2 1 1 4 4 
7 ]-.d uà owe UL 4 Ww X* 4 4 4 1 1 
8 2 2 2 2 4 4 4 3 3 3 3 2 2 2 2 
9 j 3 3 3 1 1 3 3 3 3 4 4 
0 l| xx s doo. x» 2 2 3 4 & € 3 3 3 
1 3 3 3 3 3 3 3 3 1 1 2 2 2 2 
2 3 3 3 3 4 4 4 4 2 2 2 2 1 1 
3 4 4 4 4 1 4 4 4 4 2 2 2 2 
14 1 4 4 4 4 2 2 2 2 83 3 83 3 1 1 
5 1 4 4 4 4 8 3 3 3 2 2 2 2 4 4 4 4 
6 4 4 4 4 4 4 4 4 1 Y] ez. Gd og 8 
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续 表 
列 号 1 2 3 4 5 6 7 S8 9 10 11 12 13 14 15 16 17 18 19 20 21 
E 
试验 号 
61 & 4. "^ 3 ZZ d 4d 2^ 34. 3 $9. 2: 2. 8- bL 4 8$ 2 4 1 
62 4 4 1 3 2 2 3 1 4 3 2 4 1 1 4 2 3 4 1 3 2 
63 4 4 1 3 2 3 2 4 1 2 3 1 4 4 1 3 2 1 4 2 3 
64 4 4 1 3 2 4 1 3 2 1 4 2 3 3 2 4 1 23 3 1l 4 
p 
1 组 2 组 3 组 
(11) Les(4”) 的 两 列 间 交 互 效 应 表 
列 号 1 2 3 4 5 6 7 S 9 10 1 12 13 14 15 16 17 18 19 20 21 
3 2 2 2 7 6 6 6 11 10 10 10 15 14 14 14 19 18 18 18 
(D 4 4 3 3 8 8 7 7 12 12 D] 11 16 16 15 15 20 20 19 19 
5 5 5 4 9 9 9 S8 13 13 13 12 17 17 1 16 21 21 21 20 
1 1 10 11 12 131 6 7 8 9 6 7 8 9 6 7 8 9 
(2 4 3 3 14 15 16 17 14 15 16 17 10 11 12 13 10 11 12 13 
5 5 4 18 19 20 21 18 19 20 21 18 19 20 21 14 15 16 17 
1 1 1 10 13 12 7 6 9 8 8 9 6 7 9 8 7 6 
(3 2 2 16 17 14 15 17 16 15 14 1.3 12 11 10 12 13 10 11 
5 4 21 20 19 18 20 21 18 19 19 18 21 20 15 14 17 16 
1 12 13 10 1 8 9 6 7 9 S8 7 6 7 6 9 8 
(4) 2 17 16 15 14 15 14 17 16 11 10 13 12 13 12 11 10 
3 19 18 21 20 21 20 19 18 20 21 18 19 16 17 14 15 
13 12 1] 10 9 8 7 6 7 6 9 8 8 9 6 7 
(5 15 14 17 16 16 17 14 15 12 13 10 11 11 10 13 12 
20 21 18 1 9 18 21 20 21 20 19 18 17 16 15 14 
1 1 1 2 8 4 5 2 5 3 4 2 4 5 3 
(60 8 7 7 14 16 17 15 10 13 11 12 10 12 13 1l 
9 9 8 18 21 19 20 18 20 21 19 14 1 5 16 
1 1 3 2 5 4 5 2 4 3 4 23 3 5 
(7) 6 6 17 15 14 16 12 11 13 10 13 11 10 12 
9 8 20 19 21 18 21 19 18 20 16 15 17 14 
1 4 5 2 3 3 4 2 5 5 3 2 4 
(8 6 15 17 16 14 13 10 12 11 1 3 12 10 
7 11 18 20 19 19 21 20 18 17 14 16 15 
5 4 3 2 4 3 5 2 3 5 4 2 
(9 16 14 15 17 11 12 10 13 12 10 11 13 
9 20 18 21 20 18 19 21 15 16 14 17 
l X 4 2. 4 -* 3$ 5 3 4 
(10) 12 1 11 6 8 9 7 6 9 7 8 
13 13 12 18 21 19 20 14 16 17 15 
1 1 4 2 3 5 5 2 4 3 
(20D 10 l0 9 7 6 8 8 7 9 6 
3 12 20 19 21 18 17 15 14 16 
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列 号 1 2 3 4 5 6 7 S8 9 10 1) 12 13 14 15 16 17 18 19 20 21 
1 5 3 2 4 3 4 2 5 
02 10 7 9 8 6 9 6 8 7 
11] 21 18 20 19 15 17 16 14 
5 4 2 3 5 2 
a3 8 6 7 9 8 6 9 
19 20 18 21 16 14 15 17 
1 1 1 2 3 5 
(10 16 15 15 6 8 9 7 
17 17 1 0 13 12 
1 3 2 5 4 
(05) 14 9 6 8 
7 16 1 13 10 
4 5 2 3 
(060 14 7 9 8 6 
15 13 10 12 1l 
5 4 3 2 
0) 8 6 7 9 
11 12 10 13 
1 1 
(18 20 19 19 
21 21 20 
(19) 18 18 
21 20 
(20) 18 
9 
La (PORER: 
1 
3,4,5 
dj ; 192021 is 
189 /Ao 15,16,17 
e 
6." - "14 
v 
10 
1 
4 vl v 12 v 13 
/ x v 15 v 16 v17 
2% ——————— *3 v 19 v 20 v21 


10,14,18 
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(12) L (5 ) 正 交 试 验 表 









































E 列 号 1 2) 3 4 S 6 qus 列 号 1 2 3 4 S 6 
试验 号 试验 号 
1 1 1 14 3 4 1 3 5 2 
2 1 2 2 2 2 2 15 3 5 2 4 3 
3 1 3 9 3 3 3 16 4 4 2 5 3 
4 1 4 4 4 17 4 2 5 3 1 4 
5 1 5 5 5 5 5 18 4 3 1 4 2 5 
6 2 2 3 5 19 4 4 2 5 3 1 
7 2 2 3 5 20 4 5 3 4 2 
8 2 3 4 5 2 21 5 5 3 2 
9 2 4 5 2 3 22 5 2 1 5 4 3 
10 2 5 1 2 3 4 23 5 3 2 5 4 
11 3 3 5 2 4 24 5 4 E] 2 5 
12 3 2 4 3 5 25 5 5 4 3 2 1 
13 3 83 5 2 4 ^9 9 $$ + * 
La RRI: 
1 3,4,5,6 : 
T Mr EE * 


第 四 节 ”均匀 试验 设计 及 均匀 设计 表 


部 分 因子 设计 和 正 交 设计 均 可 显著 地 减少 实验 次 数 又 不 丢失 实验 信息 ， 是 很 好 的 实验 设 
计 方 法 ， 几 十 年 来 在 工业 生产 和 科学 研究 中 得 到 了 相当 广泛 的 应 用 ， 其 中 特别 是 正 交 设计 ， 
由 于 正 交 表 还 具有 搭配 均衡 的 性 质 ， 故 还 有 所 谓 的 “均匀 分 散 ， 整 齐 可 比 ” 的 优点 。 然 而 ， 
每 一 种 方法 都 有 其 局 限 性 ， 部 分 因子 设计 和 正 交 设计 也 不 例外 ， 它 们 只 宜 用 于 水 平 数 不 多 的 
实验 中 ， 寿 在 一 项 试验 中 有 个 因素 ， 每 个 因素 各 有 9 个 水 平 ， d A 
少 要 做 gqg? 次 试验 。 例 如 ， 如 果 取 10 个 水 平 ， 则 需 至 少 做 100 次 试验 ! 值得 提出 的 是 ， 在 化 
学 与 化 工 的 生产 与 科研 的 实践 中 ， 很 多 变量 ， 如 温度 、 奈 力 、 浓 度 等 都 是 连 n 水 平 数 
取 太 少 有 时 很 难 反 映 实 际 情况 ， 有 另 尽 新 径 的 必要 。 

所 有 的 实验 设计 方法 本 质 上 就 是 在 试验 的 范围 内 给 出 挑选 代表 点 的 方法 ， 均 匀 设 计 就 是 
一 种 着 重 在 试验 范围 内 考虑 试验 点 均匀 散布 以 获得 最 多 试验 信息 的 ， 一 种 较 新 的 试验 设计 方 
法 [ 引 ， 对 于 具有 和 较 多 水 平 的 试验 尤为 有 用 。 

均匀 设计 与 正 交 设计 相似 ， 也 是 通过 一 套 精心 设计 的 表 来 进行 实验 设计 的 ， 对 于 每 一 个 
均匀 设计 表 ， 也 同时 给 出 了 一 个 使 用 表 ， 它 可 指示 如 何 从 均匀 设计 表 中 选用 适当 的 列 来 安排 
试验 。 为 使 读者 对 均匀 设计 的 基本 思路 和 基本 原理 有 一 个 整体 概念 ， 下 面 将 就 均匀 设计 表 的 
构造 、 均 匀 性 准则 和 使 用 表 的 产生 及 混合 水 平 的 均匀 设计 等 给 出 必要 的 介绍 。 


均匀 设计 表 的 构造 


均匀 设计 表 的 定义 : 每 一 个 均匀 设计 表 是 一 个 矩阵 ， 该 矩 阵 有 fim 列 ， 每 一 列 是 {1 
2,2) — EAR CED 1,2, 的 重新 排列 ) ， 表 的 第 1 行 是 {1,2,…,n} 的 一 个 子 集 ， 但 
不 一 定 是 真子 集 。 

与 正 交 试验 表 类 似 ， 均 匀 设 计 表 一 般 都 用 U, 来 表示 ， 其 中 表示 试验 的 次 数 ， 
表示 试验 的 因素 数目 ，v 表示 试验 的 水 平 数 。 表 3-16 给 出 了 一 2d 02 END 
均匀 实验 设计 表 。 
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山 (74) 均 匀 设 计 表 
列 号 











试验 号 1 2 3 4 试验 号 1 2 3 4 
1 1 2 3 6 5 5 3 1 2 
2 2 4 6 5 6 6 5 4 1 
3 3 6 2 4 T7 T7 T7 T7 7 
4 4 1 5 3 





从 表 3-16 可 以 看 出 ， 对 于 7 水 平 的 实验 设计 ， 只 需 安 排 7 次 试验 就 够 了 。 符 合 上 述 定 
义 的 均匀 设计 表 很 多 ， 在 此 仅 介 绍 好 格子 点 法 构造 的 均匀 设计 表 ， 其 方法 如 下 : 

(D 给 定 试验 数 n， 寻 找 比 n 小 的 整数 hh， 上 且 使 n 和 的 最 大 公约 数 为 1 ( 即 互 质 )， 符 

这 些 条 件 的 正 整数 组 成 一 个 向 量 h 二 (1,h2,… ,hy )。 

© 均匀 设计 表 的 第 j 列 由 下 述 步 骤 生 成 : 


uij —ih;[mod n] 
AF, [mod n] 表示 同 余 运 算 〈 即 对 ” 取 余 数 ) uy 可 以 递 推 来 生成 











u1j —hj 
uij hj 如 果 uij Th; n 
UicLl. 一 
uij--hj—n 如 果 uj 十 hj 之 n 
=l 2. Ss Nl 
例如 ， 当 n=9 时 ,符合 条 eei 29. 7, 8, MA=3 R h=6 因为 都 与 9 


不 互 质 而 不 符合 条 件 吕 。 Aa Us 表 最 多 只 inc 
Xdu*4n,—4mf. JH E E 其 结果 依次 如 下 : 


























uis =4 

uz3 —4--4 

u33 =8+4=12=3 (mod 9) 
u43, =3 F457 

us3 二 7 十 4 二 11 二 2 (mod 9) 
ue3 二 2 十 4 二 6 

u73 二 6 十 4 二 10 二 1 (mod 9) 
ugs —1-F4—5 

uss 7754-479 





其 结果 列 于 表 3-17 的 第 3 列 。 
Us(95) 均 匀 设 计 表 





gm deg i 2 39$ 9 S €l o i 2 3 4&4 6& 6 
试验 号 试验 号 
1 1 2 4 5 7 8 6 6 3 6 3 6 3 
2 2. 4 $ 1 bk 7 7 7 5 1 8 4 2 
3 3. 6 3 6 3 6 8 8 7 5 4 2 1 
4 4 8 7 2 1 5 9 9 9 9 9 9 9 
5 5 1 2 7 8 4 
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用 上 述 步 又 生成 的 均匀 设计 表 记 作 U, Q”), 向量 hh 称 为 该 表 的 生成 向 量 ， 有 时 为 了 
强调 hh 的 作用 ， 可 将 U, Q”) 记 成 U,GD 。 给 定 n， 相 应 的 h 可 以 像 上 例 那 样 方便 地 求 得 ， 
从 而 m 也 就 确定 了 。 可 以 看 到 ，m 实际 上 是 n 的 函数 。 这 个 函数 曾 由 数学 家 欧 拉 研 究 过 ， 
称 为 欧 拉 函数 ， 记 为 EF(n) 。 这 个 函数 告诉 我 们 均匀 设计 表 最 多 可 能 有 和 多少 列 。 下 面 的 结果 
来 自 数论 : 

CD 25 2 为 素数 时 ,下 (2 一 1) 一 2 一 1。 所 谓 素 数 就 是 一 个 正 整数 ， 它 与 其 他 所 有 上 比 它 小 
的 正 整数 互 质 ， 即 最 大 公约 数 为 1， 如 2，3，5，7，11，13，…， 均 为 素数 。 

(2) Án RARE, Bl n 可 表示 成 n= 二 p”， 这 里 p 为 素数 ，m 为 正 整 数 ， 这 时 


El(n)=n(l—1/p) (3-11) 



































例如 n= 二 9， 可 表示 为 n 二 3*?， 于 是 
E(9) =9 X (1—1/3)=6 


即 Us 至 多 可 以 有 6 列 。 
(3) 若 n 不 属于 上 述 两 种 情况 ， 这 时 一定 可 以 表示 为 不 同 素数 的 方 容积 ， 即 





n—pi pr pp (3-12) 
这 里 Di* P2» Pas cv p,; 为 不 同 的 素数 ， Mis mos ttt. mm, 为 正 整数 。 这 时 
Ei cuti 45:0 = 1/9; oti — 172) (3-13) 


WU n —12 可 表示 为 n= 二 2: X3, TÆ 
E(12)=12X (1— 1/2 X (1—1/3)=4 


即 Uizs 至 多 可 以 有 4 列 。 

上 述 三 种 情况 中 ， 以 素数 情况 为 最 好 ， 最 多 可 能 获得 (2 一 1) 列 。 而 非 素 数 情 况 ， 在 
上 述 表 的 结构 中 永远 不 可 能 有 (2 一 1) 列 。 例 如 n= 二 6 二 2131， 此 时 EC(6)= 二 6(1 一 1/2)(1 一 
1/3) 二 2， 这 说 明 ， 当 n= 二 6 时 ， 用 上 述 办 法 生成 的 均匀 设计 表 只 有 2 列 ， 即 最 多 只 能 安排 两 
个 因素 ， 这 太 少 了 。 为 此 ， 王 元 等 (中 建议 可 将 Ur C70 表 的 最 后 一 行 去 掉 来 构造 Us. NT 
区 别 由 上 述 方法 生成 的 均匀 设计 表 ， 他 们 把 这 些 表 记 为 Ui a”), E UWA EAMES 
"x? E, X Ug (65) 列 于 表 3-17， 是 由 表 U? (70 去 掉 最 后 一 行 而 得 。 注 意 ， 由 这 样 的 方 
法 构造 出 来 的 U* x5 U 表 之 间 存 在 如 下 关系 和 特点 : 

(D 所 有 的 U; 表 是 由 U, 表 划 去 最 后 一 行 而 获得 。 

O U 表 的 最 后 一 行 全 部 由 水 平 n 组 成 。 Ur 表 的 最 后 一 行 则 不 然 ， 若 每 个 因素 的 水 平 都 
是 由 低 到 高 排列 ，U, 表 的 最 后 一 行 所 对 应 的 试验 将 全 部 由 最 高 水 平 组 合 ，U;* 表 则 没有 类 
似 现象 ， 比 较 容易 安排 试验 。 

CQ Xin AMBAE. Ur Xm U, 表 有 更 多 的 列 。 如 上 面 讨论 的 Us 只 有 2 列 , 而 Ue 可 以 
有 6 列 。 

@ En 为 奇数 ， 则 Ux 表 的 列 数 通常 少 于 U, R. 

© Uš KIE U; 表 有 更 好 的 均匀 性 ， 应 优先 采用 ， 细 节 将 在 下 节 讨 论 。 

(5 将 U, RR U; 表 的 元 素 组 成 一 个 矩阵 的 秩 最 多 分 别 为 L(EGn) 十 1)/2j R [En + 
1) 十 1)/2]。 
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EJEBEBS Us (65 ) 均 匀 设 计 表 
列 号 | 
试验 号 1 2 3 4 5 6 
1 1 2 3 4 5 6 
2 2 4 6 1 3 5 
3 3 6 2 5 1 4 
4 4 1 5 2 6 3 
5 5 3 1 6 4 2 
6 6 5 4 3 2 1 





二 、 均 匀 性 准则 和 使 用 表 的 产生 


在 均匀 设计 中 ， 除 给 出 的 均匀 设计 表 以 外 ， 还 有 一 个 使 用 表 ， 根 据 此 表 ， 可 以 做 出 一 些 
选择 ， 即 可 选 出 对 应 的 列 来 表达 试验 中 的 因素 。 设 要 从 均匀 设计 表 U; a”) W Un, a”) 中 
Hh s 列 ， 则 可 能 有 CC; 种 可 能 ， 要 从 中 选择 一 个 最 好 的 ， 这 里 必须 对 “好 ”和 “ 坏 ” 有 明 
确 的 定义 。U, (zz Eh EERE Ri. ha. c. hm) 所 唯一 确定 的 ， 选 择 s WU. 
本 质 上 就 是 从 中 选择 s 个 元 素 ， 并 由 它们 来 产生 一 个 新 的 nXs 和 矩阵， 以 构成 一 个 新 的 均匀 
设计 表 U, his s 有,)， 它 的 每 一 行 是 ; 维 空间 R 的 一 个 点 ， 知 这 ?7 个 点 在 试验 范围 内 
均匀 分 布 ， 则 试验 效果 好 ， 和 否则 试验 效果 不 好 。 比 较 两 个 可 能 的 均匀 设计 表 Un 的 好 坏 等 价 
于 比较 对 应 两 组 点 集 在 试验 空间 的 均匀 性 。 于 是 ， 必 须 给 出 均匀 性 的 度量 。 

度量 均匀 性 的 准则 很 多 ， 其 中 偏差 是 使 用 历史 最 和 久 ， 为 公众 所 广泛 接受 的 准则 。 先 给 出 
它 的 定义 。 

d U, na”) 是 一 个 均匀 设计 表 ， 阁 把 它 的 每 一 行 看 成 mx 维 空 间 的 一 个 点 ， 则 Un Ca”) 
给 出 了 nn 个 试验 点 ， 这 些 点 的 坐标 由 人 ,2,…,n}) 组 成 。 用 线性 变换 将 {1,2,…,n}) 均 匀 地 变 
到 (0,1) zh. WF: 
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o3 D Db; Ay es (3-14) 
AH qu 表示 U, (n”) 中 的 元 素 ， 则 上 面 的 变换 等 价 于 令 
ZQu —1l , 
X ~ 2n i=1,2, ,mm; k=1,2,.…,n (3-15a) 
2 一 (ThTh2 Tp ) k=l1,2, n (3-15b) 


FÆ, n 个 试验 点 变换 成 [0，1j”* 二 C” 中 的 7 个 点 : xixz ,x 在 C” 的 均匀 性 。 

骨 差 的 定义 : xis Xa. ce xs 为 C” Wn SA, EE x= xxt) EC”, 
记 v(x) 二 x1XxsX… Xx 为 矩形 [0, x] WEE, nz 为 x1 xx PRAWE [0, 
x] 的 点 数 ， 则 





DCxzixy，… Xn) =suplnz/n—v(x) | (3-16) 


x€c" 
称 为 点 集 {x1 xtX Æ C” 中 的 偏差 。 
为 什么 偏差 可 以 用 于 度量 点 集散 布 的 均匀 度 呢 ? 阁 n xi. xo. co xs ÆC” 中 散 
布 均匀 ， 则 n/n 表示 有 多 少 比例 的 点 落 在 矩形 [0. x] 中 ， 它 应 当 和 和 矩 形 的 体积 相差 不 会 
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太 远 。 如 果 用 统计 学 的 语言 来 解释 








的 分 布 函 数 ， 于 是 上 述 定义 的 
D(x 


























2s. $ 
F,G)— [È I< x)] /n (3-17) 
k=] 
表示 {x1 Xon xu) HJARA TR PAR, 式 中 ， IC.) 为 示 性 函数 。 A FOX (im 上 均匀 分 布 
hj zs n] de Jy 
X2 Xn) —supl F,XGO — FG | (3-18) 
xXEC”™ 











布 之 间 的 偏差 











在 C" 中 任 给 7 个 点 Xis X25, t0 





凯 差 实际 上 就 是 在 分 布 拟 合 检验 中 的 Kolmogorov-Smirrov 统计 量 ， 它 给 出 了 经 验 和 理论 分 








，xa， 如 何 计算 它们 的 偏差 对 均匀 设计 表 的 构造 十 分 
重要 。 长 期 以 来 ， 一 直 没 有 人 提出 一 个 实用 的 算法 。 方 开 泰 等 是 把 偏差 展开 成 级 数 ， 取 其 首 

















项 ， 给 出 近似 偏差 的 准则 。 此 法 计算 方便 ， 但 有 时 误差 较 大 ， 而 且 只 适合 好 格子 点 法 构造 的 
均匀 设计 ， 不 能 计算 正 交 设计 等 其 他 方法 所 产生 的 试验 点 的 偏差 。 最 近 ，Bundschuh MRF 


























展 呈 给 出 了 计算 偏差 的 算法 ， 当 因素 不 太 多 时 ， 该 算法 可 精确 地 求 出 任何 点 集 的 偏差 。 
设 要 从 均匀 设计 表 U, o Ph s 列 ， 使 其 相应 的 均匀 设计 有 最 小 偏差 。 当 mm Fs E 
大 时 ， 由 mx 列 中 取出 s 列 的 数目 有 C 之 多 ， 要 比较 这 么 多 组 点 集 的 均匀 性 工作 量 很 大 ， 须 

















方法 。 














4 a 为 小 于 7 的 整数 ， 且 a,，a? (modn)， 


MFK < 对 7 的 次 数 为 上 ， 例 如 


21 


则 2 对 5 的 次 数 为 3， 又 如 


31 











用 简化 计算 和 近似 求解 的 方法 。 这 里 仅 介绍 利用 整数 的 同 余 需 来 产生 his hz. s hs 的 


…,，a‘(modn) 互 不 相同 , att =1Cmod n) ， 





2, 


2?=4, 2? 


3, 2'!—1Gnod 5) 








353^ 


9, 3? 


5, 3! 


4, 35—] (mod 11) 





则 3 对 11 的 次 数 为 4。 一 般若 对 nn 的 次 数 大 于 或 等 于 一 1， 且 va 5n 互 质 ， 则 可 用 


(Cal, =t, a!) (mod n) 
作为 生成 向 量 ， 故 a 称 为 均匀 设计 的 生成 元 。 然 后 在 一 切 可 能 的 a (最 多 nn 一 1 个 ) 中 去 比 





较 相 应 试验 点 的 均匀 性 ， 工 作 量 可 大 大 减少 。 
用 表 仍 能 保证 设计 的 均匀 性 。 于 是 对 给 定 的 nw 和 s， 只 要 求 得 最 优 的 a， 便 可 获得 生成 向 量 ， 
从 而 获得 相应 的 均匀 设计 表 。 


U, 和 U; 的 生成 元 和 相应 设计 的 偏差 











理论 和 实践 证 明 ， 这 种 方法 获得 的 均匀 设计 使 








n 2 3 4 5 6 y 
5 2(0. 3100) 2(0. 4570) 

6 3(0. 1875) 3 (0. 2656) 3C0. 2990) 

7 3(0. 2398) 3C0. 3721) 3(0. 4760) 

8 4(0. 1445) 4(0. 2000) 2(0. 2709) 

9 4C0. 1944) 4C0. 3102) 2(0. 4066) 

10 7(0. 1125) 7(0. 1681) 5(0. 2236) 5C0. 2414) 7(0. 2994) 

11 7(0. 1632) 7(0. 2649) 5(0. 3528) 7(0. 4286) 7(0. 4942) 











069 | 






























































第 三 章 化 学 试验 设计 与 优化 方法 | 
EK 
n 2 3 4 5 6 få 
2 5€0. 1163) 6(0. 1838) 6(0. 2233) 4(0. 2272) 6(0. 2670) 6(0. 2768) 
13 5(0. 1405) 6(0. 2308) 6€0. 3107) 4C0. 3814) 6C0. 4439) 6(0. 4992) 
4 11(0. 0957) 7¢0. 1455) 7(0. 2091) 
5 IKG 1233) 7(0. 2043) 7(0. 2772) 
6 10(0. 0908) 5(0. 1262) 5(0. 1705) 5(0. 2070) 0€0. 2518) 2(0. 2769) 
7 11(0. 1099) 10(0. 1832) 10(0. 2501) 0€0. 3111) 0€0. 3667) 10€0. 4174) 
8 8(0.0779) 9(0. 1394) 9(0. 1754) 4(0. 2047) 3(0. 2245) 9(0. 2247) 
9 8€0. 0990) 8€0. 1660) 4CO. 2277) 14(0. 2845) 14€0. 3368) 14€0. 3850) 
20 3€0. 0947) 5(0. 1363) 0€0. 1915) 10€0. 2012) 10€0. 2010) 
21 3€0. 0947) 10€0. 1581) 0€0. 2089) 10€0. 2620) 10€0. 3113) 
22 9(0. 0677) 170. 1180) 170.1392) 7(0. 1827) 7(0. 1930) 1(0. 2195) 
23 17€0. 0827) 15(0. 1397) 170.1930) 1(0. 2428) 7(0. 2893) 1(0. 3328) 
24 11(0. 0586) 6(0. 1031) 6(0. 1441) 2(0. 1758) 2(0. 2064) 2(0. 2198) 
25 1(0. 0764) 11(0. 1294) 1(0. 1793) 11(0. 2261) 4(0. 2701) 9(0. 3115) 
26 6(0. 0588) 10(0. 1136) 5(0. 1311) 5(0. 1683) 6(0. 1828) 5(0. 1967) 
27 20(0. 0710) 20(0. 1205) 20(0. 1673) 20(0. 2115) 6(0. 2533) 6(0. 2927) 
28 18(0. 0545) 7(0. 0935) 7(0. 1074) 16(0. 1381) 7(0.1578) 7€0.1550) 
29 23(0.0663) 9(0. 1128) 7(0.1596) 16(0. 1937) 6(0. 2384) 6(0. 2760) 
30 22(0.0519) 22(0. 0888) 18(0. 1325) 18(0. 1465) 18(0. 1621) 11(0. 1924) 
3l 14(0. 0622) 1260. 1060) 22€0. 1477) 12€0. 1874) 12€0. 2251) 22(0. 2611) 
37 170.0524) 23(0.0930) 170.1255) 7(0. 1599) 7(0. 1929) 7(0. 2245) 
奇数 n 的 U; 表 的 生成 矢量 和 相应 设计 的 偏差 

n s 生成 矢量 也 P/% 
7 2 (155) 0. 1582 34. 03 

3 (3.5.7) 0. 2132 42. 70 
9 2 (1.5) 0. 1574 19. 03 

3 (3.7.9) 0.1980 36. 17 
ii 2 (1.5) 0. 1136 30. 39 

3 (547411) 0. 2307 12. 91 

2 (1.9) 0.0962 31. 53 
13 (1,9,11) 1442 917.52 

4 (1.5,9,11) 0. 2076 33. 18 

2 Q.7) 0. 0833 32. 44 
15 d (1.5.13) 0. 1361 33. 38 

4 (5.7.9,13) 0. 1511 45. 49 

5 (5.7.9.11.15) 0. 2090 24. 60 

2 (1.7) 0.0856 22. 11 
17 (1.7.13) 1331 21.35 

4 (7,11,13,17) 0.1785 28. 63 

2 (1.9) 0.0755 23. 74 
1 3 (1.3.1) 0. 1372 17,35 

4 Eleast ll) 0. 1807 20. 64 

5 (7,9,11,13,19) 0. 1897 33. 32 
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续 表 

n s 生成 矢量 D P/% 
2 (1,13) 0. 0679 28. 30 

2 3 (1,7,9) 0. 1121 29.10 
4 (1,5,7,13) 0. 1381 33. 89 

5 (1,9,13,17,19) 0.1759 32. 86 

2 (2.17) 0. 0638 29.62 

" 3 (11,17,19) 0. 1029 26. 34 
! 4 (1,7,13.19) 0. 1310 32.12 

5 (11,13,17,19,23) 0. 1691 30. 35 

2 Glo 0. 0588 23.04 

M 3 (3,5,25) 0. 0975 24.65 

9 

4 (5,7,9,25) 0. 1210 32.52 

5 (11,15,17,19,21) 0. 1532 32.24 

2 (1,11) 0. 0600 15. 49 

3 3 (1.9.15) 0. 1009 16.27 
4 (1,11,15,25) 0.1189 28. 93 

5 (3,13,17,19,27) 0. 1378 34. 85 

2 (1.19) 0. 0520 16.27 

29 3 (1,17,19) 0. 0914 18.97 
4 (1.17.1923) 0. 1050 34.21 

5 (13,17.19,23,29) 0. 1730 12.93 

2 (1.9) 0. 0554 10. 93 

T 3 (1.9.19) 0. 0908 14. 34 
4 (3,13,21,27) 0. 1100 25. 52 

5 (5,9,11,17,19) 0. 1431 23.64 

表 3-19 对 奇数 (oXns31. n —37) 给 出 了 U， 表 的 生成 元 及 其 均匀 设计 的 偏差 ， 同 











时 对 偶数 n (6x30) 给 出 了 Ux 表 的 生成 元 及 相应 的 偏差 。 类 似 地 ， 对 奇数 n， 也 可 获 














得 Ux 表 的 生成 向 量 及 相应 的 偏差 ( 见 表 3-20) 。 此 二 表 由 方 开 泰 等 算出 [123] 。 综 合 两 个 表 





的 结果 ， 可 作 如 下 说 明 
中 HEZ n, Ur 表 比 U, 表 有 更 好 的 均匀 性 。 例 如 nn 二 15，s 二 4 时 ，U,( 














154) 的 偏差 


为 DD 二 0.2772， 而 Ui (154) 的 偏差 为 了 =0.1511， 后 者 比 前 者 相对 降低 了 45.49%. 
Q Æ n 固定 ， 当 ; 增 大 时 ，U, x O U} XO 的 偏差 也 随 之 增 大 ,， 若 HE, U, 表 的 



































遍 差 随 ”的 增 大 而 减少 ， 而 U; 表 的 偏差 一 般 也 随 之 增 大 而 减少 ， 但 有 少数 例外 ， 原 因 是 它们 的 








U, 1 表 的 可 能 列 数 已 (2 十 1) 不 太 多 ， 其 中 选择 * 的 可 能 组 合 也 不 多 ， 从 而 最 小 偏差 相对 偏 大 。 
Q 表 3-19 列举 的 U, KA U; 表 是 由 生成 元 方法 生成 的 ， 而 表 3-20 的 Ui 表 是 考虑 




















从 Un+1 表 中 选 出 s 列 的 一 切 可 能 的 组 合 ， 所 以 生成 向 量 中 不 一 定 包 含 1 。 

@ 均匀 度 度 量 的 方法 很 多 ， 最 初 王 元 、 方 开 泰 0 提出 了 近似 偏差 的 均匀 性 
这 个 准则 ， 他 们 给 出 了 onsc31 的 使 用 表 。 了 丁 元 95 利用 最 优 实验 设计 理论 中 的 A 
最 优 准 则 ， 给 出 了 相应 的 使 用 表 ， 蒋 声 和 陈 瑞 琛 上 9 54 从 几何 的 观点 提出 了 体积 晶 
方 开 泰和 郑 胡 灵 56 也 是 从 几何 的 角度 建议 用 最 大 对 称 差 的 条 件 来 度量 均匀 性 ， 
匀 性 度量 必须 要 满足 的 条 件 。 


三 、 拟 水 平均 匀 设 计 
由 于 在 实际 的 化 学 实验 和 化 工 生产 中 情况 变化 很 多 ， 有 时 各 个 因素 的 水 平 数 



































准则 ， 利 用 
-ig E RID - 
E 离 的 度量 。 
并 提出 了 均 








是 各 自 不 同 
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的 ， 唯 如 此 方 可 与 实际 情况 相同 ， 所 以 ， 在 实验 设计 中 就 有 所 谓 的 拟 水 平方 法 ， 即 针对 实验 
设计 诸 因素 的 水 平 数 存在 有 不 相同 的 情况 下 的 一 种 设计 ， 有 时 也 称 为 混合 水 平 设 计 。 先 来 看 
一 个 简单 的 例子 。 若 在 一 个 试验 中 ， 有 两 个 因素 A MB 为 三 水 平 ， 一 个 因素 C 为 二 水 平 ， 
这 个 试验 可 用 正 交 表 Lis (2X3!) sk HE. 这 等 价 于 全 面试 验 ， 并且 不 可 能 找到 比 Lis 更 小 
的 正 交 表 来 安排 这 个 试验 。 直 接 运用 均匀 设计 似 也 困难 ， 但 如 引入 所 谓 拟 水 平 技术 ， 就 可 用 
均匀 设计 表 来 安排 试验 了 。 对 此 例 ， 可 用 Ug (65) 表 中 的 前 三 列 来 进行 安排 ， 将 因素 A 和 
B 放 在 前 两 列 ， 将 C 放 在 第 三 列 ， 继 将 前 两 列 的 水 平 两 两 合并 ， 即 : (1. 2) 21. (3. 4j 
22, (5, 6) 26, 第 三 列 则 合并 成 为 二 水 平 ，{1，2，3》 21, (4, 5, 6) 22, XXE, uf 
得 如 表 3-21 所 示 的 拟 水 平均 匀 设 计 表 Us (32 x 2, R 3-21 具有 很 好 的 均衡 性 ， 例 如 ，A 列 
和 C 列 , B 列 和 C 列 的 二 因素 设计 正好 组 成 它们 的 全 面试 验方 案 ，A 列 和 B 列 的 两 因素 设 
计 中 也 没有 重复 试验 。 


拟 水 平 设 计 Us (3!x2) 

































































试验 号 i E B C [uus qud 人 P E 
1 (DI (251 (301 4 (402 (1)1 (5)2 
2 (2)1 (4)2 (6)2 5 (503 (302 (102 
3 (302 (603 (251 6 (603 (5)3 (4)2 





并 不 是 每 一 次 作 拟 水 平 设 计 都 能 这 么 好 。 如 要 安排 一 个 二 因素 CA. BO 五 水 平和 一 因 

















zx (C) 二 水 平 的 试验 ， 若 用 正 交 设计 ， 可 选 Lio 表 ， 但 试验 次 数 太 多 ; 若 用 均匀 设计 ， 可 
JH Uio (107) 表 的 第 1、5、7 列 来 进行 来 安排 。 将 第 1、5 列 的 每 两 水 平 进行 合并 ， 即 : 
(1,2)21,(3,4) 292,*,(9,10) 95; 而 将 第 7 列 的 每 五 水 平 进行 合并 ， 即 : (1,2,3.4,5)2 
1,{6,7,8,9,10} 二 2， 于 是 可 得 到 如 表 3-22 (a) 所 示 的 拟 水 平均 匀 设 计 。 注 意 此 表 的 A 和 
C 两 列 有 两 个 (2,2) 、 但 没有 (2,1)， 有 两 个 (4,1)、 却 没有 “(4,2)， 因 此 均衡 性 不 好 。 

Updo) 的 均匀 设计 表 实 际 有 10 列 ， 在 这 10 列 任 取 3 列 的 一 个 组 合 都 可 以 用 来 设 
计 。 例 如 ， 如 果 取 用 Uim (1010) 表 的 第 1、2、5 列 来 进行 上 述 拟 水 平安 排 ， 可 得 如 表 3-22 
(b) 的 Uio(5?X2) 设计 ， 注 意 此 设计 既 具 有 均衡 性 ， 而 且 其 偏差 刀 =0.3925， 达 到 了 Ub 
(2107?) 均匀 设计 表 所 有 任 取 三 列 的 组 合 所 得 偏差 的 最 小 值 。 所 以 ， 由 表 3-22 (b) 示 出 的 
拟 水 平 设计 似 应 比 有 表 3-22 (a) 示 出 的 好 。 


拟 水 平 设计 Ui (5* x 2) 




































































(a) (b) 

os 列 号 A B C TE 列 号 A B c 
1 (DI (503 (752 1 (1)1 (2) (5) 
2 (2)1 (10)5 (3) 2 (2)1 (4)2 (10)2 
3 (322 (4)2 (10)2 3 (3)2 (6)3 (4) 
4 (4)2 (9)5 (6)2 4 (4)2 (854 (952 
5 (503 (302 (2) 5 (593 (1005 (3) 
6 (603 (804 (952 6 (603 (D (802 
7 (7)4 (2)1 (5) 7 (7)4 (3)2 (2) 
8 (8)4 (7)4 (D 8 (804 (503 (72 
9 (9)5 (DI (852 9 (9)5 (7)4 (1) 
10 (10)5 (6)3 (4) 10 (10)5 (9)5 (6)2 
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四 、 均 匀 设 计 表 


本 节 将 试验 次 数 为 5 一 31 的 均匀 设计 表 收 集 于 表 3-23， 以 供 读者 方便 选用 ， 注 意 到 均 
匀 设 计 的 试验 次 数 是 可 与 水 平 数 相对 应 的 ， 也 就 是 说 ， 可 以 据 此 来 安排 具有 31 水 平 的 试验 。 
因素 的 个 数 也 最 高 可 达 13 个 。 在 本 节 中 同时 提供 的 使 用 表 给 出 了 每 种 可 能 组 合 的 偏差 值 ， 
读者 可 根据 具体 的 情况 ， 即 将 试验 次 数 、 水 平 数 及 均衡 性 等 条 件 与 偏差 值 一 起 来 综合 考虑 ， 
灵活 选用 。 


均匀 设计 表 汇 集 





































































































(OD UC] iT (1a) UC) fl Ho 
试验 号 1 2 3 维 数 列 号 偏 zx 
1 1 2 4 2 1.2 0. 3100 
2 2 4 3 3 1,2,3 0. 4570 
3 3 1 2 
4 4 3 1 
5 5 5 5 
(2) Ui (60389 5] EH (2a) Ui (65 fEJH 3e 
| a | &— » s 偏差 
1 1 2 3 6 2 a 0. 1875 
2 2 4 6 5 3 1,253 0. 2656 
3 3 6 2 4 4 1.2.3.4 0. 2900 
4 4 1 5 3 
5 5 3 1 2 
6 6 5 4 1 
(3) U; (7') 均 名 设计 表 Ga U? (74) 使 用 表 
ET 维 gH 列 号 偏 x 
1 1 3 5 7 2 1.3 0. 1582 
2 2 6 2 6 3 2.,3,4 0. 2132 
3 9 1 7 5 
4 4 4 4 4 
5 5 7 1 3 
6 6 2 6 2 
7 7 5 3 1 
(4) Ui (8)03595] BET (4a) U; (85) 使 用 表 
试验 号 1 2) 3 4 5 维 数 列 号 偏 zx 
1 1 2 4 7 8 2 1.3 0. 1445 
2 2 4 8 5 7 3 1.3.4 0. 2000 
3 3 6 3 3 6 
4 4 8 7 1 5 
5 5 1 2 8 4 
6 6 3 6 6 3 
7 7 5 1 4 2 
8 8 7 5 2 1 
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(5) U (95) 均 匀 设 计 表 Ga) U, OEHK 
试验 号 1 2 3 4 5 维 数 列 Es 偏 差 
1 1 2 4 7 8 
2 2 4 8 5 7 
3 3 6 3 3 6 
4 4 8 7 1 5 
5 5 1 2 8 4 
6 6 3 6 6 3 
7 7 5 1 4 2 
8 8 7 5 2 1 
9 9 9 9 9 9 
(6) Ui, 10335] Wi (63) U CO f8 HH 
试验 号 1 2 3 4 5 6 维 数 列 号 偏 ES 
1 E a 2 1,5 0. 1632 
i es - d de. db 4 3 1,4,5 0. 2649 
3 3 $9 9 24$ 10 og 4 1,3,4,5 0. 3528 
4 N a E E 5 1,2,3,4,5 0. 4286 
3 - 2 
3 5 d] dA on wg 6 1,2,8,4,5,6 0. 4942 
6 6 1 7 8 9 5 
7 7 3 10 2 5 4 
8 8 5 2 7 1. 3 
9 0 7 5 1] 8 2 
10 10 9 8 6 4 1 
11 1l] d1 1 i m ü 
(7) UKAA E (7a) Uj, C100 f FH e 
试验 号 1 8 3 4 5 6 7 8 维 数 列 号 偏 zx 
1 1 2 3 4 5 7 9 10 2 1.6 0. 1125 
2 2 4 6 8 10 3 7 9 3 1555 0. 1681 
3 3 6 9 1. 4 1 5 8 4 1.3.4.5 0. 2236 
4 4 8 1 5 9 6 3 7 5 1.3.4,5,7 0. 2414 
5 5 10 4 9 3 23 1 6 6 1,2,3,5,6,8 0. 2994 
6 6 1 7 2 8 9 10 5 
7 7 3 10 6 2 5 8 4 
8 8 5 2 1 7 1 6 3 
9 9 7 5 83 1 8 4 2 
10 10 9 8 7 6 4 2 1 
(8 Us(12") 均 匀 设 计 表 
试 验 号 1 2 3 4 5 6 y 8 9 10 
1 1 2 3 4 5 6 8 9 10 12 
2 2 4 6 8 10 12 3 5 7 1 
3 3 6 9 12 2 5 1 1 4 10 
4 4 8 12 3 7 1 6 10 1 9 
5 5 10 2 7 12 4 1 6 1 8 
6 6 12 5 11 4 10 9 2 8 7 
7 7 1 8 2 9 3 4 1 5 6 
8 8 3 11 6 1 9 12 7 2 5 
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续 表 
试 验 号 1 2 3 4 5 6 7 8 9 10 
9 9 5 1 10 6 2 7 3 12 4 
10 10 7 4 1 11 8 2 12 9 3 
11 11 9 7 5 3 1 10 8 6 2 
12 12 11 10 9 8 7 5 4 3 1 














(8a) Uk (125 fi Jf] 3€ 

















维 gu 5». 号 偏 。 差 维 g5 列 号 偏差 
2 1.5 0. 1163 5 1.3,4,8,10 0. 2272 
3 1.6.9 0. 1838 6 1.2.6.7.8.9 0. 2670 
4 1.,6,7,9 0. 2233 7 1,2,6,7,8,9.10 0. 2768 

(9) Us, (303 5] TEE 

试 验 号 1 2 3 4 5 6 7 8 
1 il 2 5 6 8 9 10 12 
2 2 4 10 12 3 5 7 11 
3 3 6 2 5 11 1 4 10 
4 4 8 7 1l 6 10 1 9 
5 5 10 12 4 1 6 11 8 
6 6 12 4 10 9 2 8 和 
yd 7 1 9 3 4 1l 5 6 
8 8 3 1 9 12 7 2 5 
9 9 5 6 2 7 3 12 4 
10 10 T 1l 8 2 12 9 3 
1l 1l 9 3 1 10 8 6 2 
12 12 11 8 y 5 4 3 1 
13 13 13 13 13 13 13 13 13 











Æ K 列 号 偏 差 Æ K 列 号 oo x 
2 1.3 0. 1405 5 1,4,5,6,7 0. 3814 
3 1,4,7 0. 2308 6 1,2,4,5,6,7 0. 4439 
4 1,4,5,7 0. 3107 7 1,2,4,5,6,7,8 0. 4992 





(10 U%(145) 均 名 设计 表 





试验 号 1 2 3 4 5 试验 号 1 2 3 4 5 
1 1 4 7 11 13 8 8 2 11 13 14 
2 2 8 14 7 11 9 9 6 3 9 12 
3 3 12 6 3 9 10 10 10 10 5 10 
4 4 1 13 14 7 11 11 14 2 1 8 
5 5 5 10 5 12 12 3 9 12 6 
6 6 9 12 6 3 13 13 7 1 8 4 
7 13 4 2 1 14 14 11 8 4 2 














(10a) Uj, (145) 使 
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1,2,3， 


Cn 


0. 2091 





d1) U5(15)0395] HE iE 














试验 号 1 2 3 4 5 6 7 试验 号 1 2 3 4 5 6 y 
1 1 5 /i 9 11 13 5 9 9 13 15 1 3 5 7 
2 2 10 14 2 6 10 4 10 0 2 6 10 14 2 6 
3 3 15 5 11 1 7 3 1 1 7 13 3 9 15 5 
4 4 4 12 4 12 4 2 2 2 12 4 12 4 12 4 
5 5 9 3 13 7 1 1 3 3 1 11 5 15 9 3 
6 6 14 10 6 2 14 0 14 4 6 2 14 10 6 2 
7 7 3 1 15 13 11 9 5 5 11 9 7 5 3 1 
8 8 8 8 8 8 8 8 
































维 数 列 号 偏 维 列 偏 差 
2 1.3 0. 0833 4 1.2.4.6 0. 1551 
3 1.2.6 0. 1361 5 2,3,4,5,7 0. 2272 
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(12a) Uj C16") fit Jg 3 








Æ HS 列 号 LEE 维 K 列 号 o 差 
2 1.8 0. 0908 5 1,4,5,6,9 0. 2070 
3 1,4,6 0. 1262 6 1,3,5,8,10,11 0. 2518 
4 1,4,5,6 0. 1705 7 1,2,3,6,9,11,12 0. 2769 





(13) Un (181) 均 匀 设 计 表 

















试 验 号 1 2 3 4 5 6 7 8 9 10 11 
1 1 3 4 5 6 7 8 9 11 15 16 
2 2 6 8 10 2 14 6 8 3 11 13 
3 3 9 12 15 8 2 5 8 14 7 10 
4 4 12 16 1 5 9 13 17 6 3 7 
5 5 15 1 6 11 6 2 7 17 18 4 
6 6 18 5 11 7 4 0 6 9 14 1 
7 7 2 9 16 4 1 8 6 1 10 17 
8 8 5 13 2 10 8 7 15 2 6 14 
9 9 8 17 7 16 6 15 5 4 2 11 
0 0 11 2 12 3 3 4 4 5 17 8 
1 11 14 6 17 9 1 12 4 7 13 5 
2 2 17 10 3 15 8 1 3 8 9 2 
3 3 1 14 8 2 5 9 3 0 5 18 
4 14 4 18 13 8 3 17 12 2 1 15 
5 15 7 3 18 14 0 6 2 3 16 12 
6 6 10 7 4 1 7 14 1 5 12 9 
7 7 13 11 9 7 5 3 1 6 8 6 
18 18 16 15 14 13 12 11 10 8 4 3 

















(13a) U (182) 使 用 表 








Æ K 列 号 do x Æ HÀ 5l 号 o x 
2 1.7 0. 0779 5 1.3,6,8.11 0. 2047 
3 1,4,8 0. 1394 6 1,2,4,7,8,10 0. 2245 
4 1,4,6,8 0. 1754 7 1,4,5,6,8,9,11 0. 2247 





(14) U5 (220) 均 匀 设 计 表 








试 验 号 1 2 3 4 5 6 y 8 9 10 11 
1 1 5 6 8 9 11 13 14 17 20 21 
2 2 10 12 16 18 22 3 5 11 17 19 
3 3 15 18 1 4 10 16 9 5 14 17 
4 4 20 1 9 13 21 6 0 22 11 15 
5 5 多 7 17 22 9 19 1 16 8 13 
6 6 7 13 2 8 20 9 15 10 5 11 
7 7 12 19 10 17 8 22 6 4 2 9 
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试 验 号 1 2 3 4 5 6 7 8 9 10 11 
8 8 17 2 18 3 19 12 20 21 22 7 
9 9 22 8 3 12 7 YA 1l 15 19 5 
0 0 4 14 1 21 8 15 g 9 16 3 
11 1 9 20 19 T 6 5 16 3 13 1 
12 2 14 3 4 16 17 18 7 20 10 22 
3 3 19 9 vi 2 5 8 21 14 7 20 
4 4 15 20 11 6 21 12 8 4 18 
15 5 6 21 5 20 4 11 3 2 1 16 
6 6 1 4 13 6 5 1 17 19 21 14 
(d 7 16 10 21 5 9 14 8 13 18 12 
18 8 21 16 6 1 14 4 22 VÀ 5 10 
9 9 E 22 14 10 2 ] 13 1 12 8 
20 20 8 5 22 9 9 7 4 18 9 6 
21 21 13 1l 7 5 1 20 18 12 6 4 
22 22 18 17 15 14 12 10 9 6 3 2 
(14a) UZ C22 ) 使 用 表 
维 5 列 号 mox 维 5 列 号 偏 。 差 
Y 14:5. 0. 0677 5 1.4,7,8,9 0. 1827 
3 13759 0. 1108 6 1.4.,7.8.9,.11 0. 1930 
4 1.7.8.9 0. 1392 7 1.2,3,5,6,7.10 0. 2195 
(15) Ui C24) 5] TE 
i ou 号 1 D 3 4 5 6 7 8 9 
1 E 6 7 9 1l 12 16 19 
v y 6 12 14 18 22 24 7 13 
3 3 9 18 21 2 8 1l 23 7 
4 4 12 24 3 11 9 23 14 1 
5 5 15 5 10 20 5 10 b 20 
6 6 18 1l 17 4 6 22 21 14 
7 7 21 17 24 13 y 9 2 8 
8 8 24 23 6 22 3 21 3 2 
9 9 2 4 13 6 24 8 19 21 
0 0 5 10 20 15 10 20 0 15 
1 11 8 16 2 24 21 7 1 9 
2 12 1l 22 9 8 7 19 17 3 
3 3 14 3 16 17 18 6 8 22 
4 14 17 9 23 1 4 18 24 16 
5 15 20 15 5 10 [5 5 15 10 
6 6 23 21 12 19 1 17 6 4 
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试 验 号 1 2 3 4 5 6 7 8 9 
17 17 1 2 19 3 12 4 22 23 
18 18 4 8 1 12 23 6 13 17 
19 19 7 14 8 21 9 3 4 11 
20 20 10 20 15 5 20 15 20 5 
21 21 13 1 22 14 6 2 11 24 
22 22 16 7 4 23 17 4 2 18 
23 23 19 13 11 7 3 1 18 12 
24 24 22 19 18 16 14 13 9 6 





(15a) U (24?) 使 用 表 











维 HS 列 号 fo x Gi 列 号 Roo x 
2 1.6 0. 0586 5 1,2,6,7,9 0. 1758 
3 1.3.6 0. 1031 6 1,2,4,6,7,9 0. 2064 
4 1,3,6,8 0. 1441 7 1,2,4,5,6,7,9 0. 2198 





(16) U C26 0Jg^] Wt TE 























io ou 号 1 2 3 4 5 6 7 8 9 10 11 
1 1 4 5 7 10 3 16 17 19 20 25 
2 2 8 10 14 20 26 5 7 11 13 23 
3 3 12 15 21 3 2 21 24 3 6 21 
4 4 16 20 1 13 25 10 14 22 26 19 
5 5 20 25 8 23 1 26 4 14 19 17 
6 6 24 3 15 6 24 15 2 6 12 15 
7 7 1 8 22 16 0 4 1 25 5 13 
8 8 5 13 2 26 23 20 17 25 11 
9 9 9 18 9 9 9 9 18 9 18 9 
0 0 13 23 16 19 22 25 8 1 11 7 
1 11 17 1 23 2 8 14 25 20 4 5 
2 2 21 6 3 12 21 3 15 12 24 3 
3 3 25 1 10 22 7 19 5 4 17 1 
4 14 多 16 17 5 20 8 22 23 10 26 
5 15 6 21 24 15 6 24 12 15 3 24 
6 6 10 26 4 25 9 13 2 7 23 22 
7 7 14 11 8 5 2 19 26 16 20 
8 18 18 9 18 18 8 18 9 18 9 18 
19 9 22 1 25 1 4 7 26 10 2 16 

20 20 26 19 5 11 17 23 16 2 22 14 
21 21 3 24 12 21 3 12 6 21 15 12 
22 22 7 2 19 4 6 1 23 13 8 10 
23 23 11 7 26 14 2 17 13 5 1 8 
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续 表 
24 24 15 12 6 24 15 6 3 24 21 6 
25 25 19 17 13 " 1 22 20 16 14 4 
26 26 23 22 20 17 14 11 10 8 Y 2 











Æ H 列 号 Wo 差 Æ H 列 号 o x 
2 1.7 0. 0588 5 1,2,3,8,11 0. 1682 
3 1,5,9 0. 1126 6 1,2,4,6,7,9 0. 1828 
4 1,3,8,11 0. 1311 7 1,2,3,8,9,10,11 0. 1967 





第 五 节 最 优 试 验 设计 


























P 





全 定 X 


到 目前 为 止 ， 前 面 


j 所 有 讨论 的 试验 设计 方法 都 是 假定 模 


际 上 ， 所 有 试验 设计 的 统计 捅 














EW RIS X 的 值 有 着 密切 的 关系 。 


因此 ， 如 何在 验 前 CR 











24. 52 4c m hd 
计 优良 性 质 ， 这 个 问题 是 十 分 重要 的 ， 也 是 近 二 十 多 年 来 试验 设计 中 一 个 活跃 的 研究 课题 ， 
本 节 拟 讨论 的 最 优 设计 法 就 包括 这 方面 的 问题 ,希望 更 多 了 解 这 方面 情况 的 读者 可 参看 有 关 
专著 [1 ~ 19] F 
一 、 最 优 设计 的 各 种 准则 
为 讨论 问题 的 方便 ， 在 此 将 前 述 











的 试验 设计 回归 模型 改写 为 以 下 更 为 一 般 的 回归 模型 





y =B fi x) af 2Cx) Ft M uf m(x) e (3-19) 
式 中 ,x 为 试验 因素 空间 的 一 点 ， 如 试验 因素 空间 是 p 维 欧 氏 空 间 ， 那 么 x 就 是 p 维 





间 的 点 的 连续 函数 。 例 如 ， 当 试验 因素 空间 
次 项 来 构成 试验 设计 的 回归 模型 的 话 ， 就 


向 量 ，f; (x) (i 二 1,2,…,m) 都 是 该 试验 因素 空 
为 2 维 时 ， 即 x 二 (zx1,xs), 如 取 因 素 的 所 有 二 
可 取 

















fi(x)=1 
f: (x)=5zx] 
fa (x)=; 


falx) =z z? 





此 时 ， 试 验 设 计 的 具体 回归 模型 就 可 写成 
yep FB2xi - Bax» Fitir - 5x 
行 n R, HÈ (3-19) 表示 的 回归 模型 可 得 





(3-20) 





"Co 
o 
E 

Nw 








当 试验 计划 进 
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yi[hfi (RIT Bo f 2 x ;0 Ft T Bu f n (x;)+e G =1 ,2,°" ,1) 
其 试验 设计 和 矩阵 X 为 


fixi) f2(x1) i f») 
y= Fatti Tet CE m Hid TRU 
fiCx4) faxa) eem F a ad 


IERT, AmE E ETT ELA OX'X). 

这 样 ， 就 可 通过 选择 X E EME 3-19) 表示 的 回归 模型 可 估 ， 使 由 式 (3-19) 
可 佑 的 设计 称 为 可 行 设 计 。 记 所 有 可 行 设 计 的 全 体 组 成 集合 为 %W,。 所 谓 最 优 试验 设计 就 是 
指 从 9t, 中 找 出 一 个 XER， 使 式 (3-19) 的 最 小 二 乘 估 计 具 有 某 种 “优良 性 ”。 

“优良 性 ” 指 什么 ? 这 涉及 到 不 同 的 准则 ， 下 面 从 不 同 的 角度 介绍 几 种 常用 的 优良 性 准则 。 

(D A- 最 优 准 则 对 任 取 XE%,， 有 


B=(X'X) X'y (3-22) 














cov(fió) ^cov[CX'X) ! X!y ]=0? (XX)! (3-23) 
AP, c? 为 回归 模型 的 估计 误差 的 方差 。 若 存在 XAE 和 JU ， 使 





tr[cov(p)] =tr[o? (X4 Xa) ]= min > 1/4; (3-24) 


i=l 





Jr. MPX, A ARRE., HEP aa WARE XX) 的 第 i 个 特征 值 。 故 A- 
最 优 是 协 方 差 阵 的 特征 值 之 和 最 小 准则 ， 或 称 平均 方差 最 小 准则 。 
(2) BBX] EBBXI -最 优 准则 ”车 存在 和 EER， 使 得 











À min (XEXE) = maxi min QC X) (3-25) 
XER, 


成 立 ， 则 称 XE 为 已 -最 优 的 设计 和 矩阵。 其 中 Xm 为 信息 矩阵 (XEXE) 的 最 小 特征 值 。 故 
E- 最 优 是 信息 矩阵 的 最 小 特征 值 最 大 准则 。 
(3) D -最 优 准 则 HEXER, t 




















[X5 Xp| = max |X'X| (3-26) 
XER, 





成 立 ， 则 称 Xp X D-RE., KP |. | 为 信息 矩阵 (XX) 的 行列 式 值 。 故 也 - 
最 优 是 信息 矩阵 的 行列 式 值 最 大 准则 。 
(4) G- 最 优 准则 IHER XER, 有 ， 
y—Xp 
即 y;—xiB— xi! X) Xy (3-27) 
所 以 有 
var(y;)=var(xi(X'X) ! X! y —x1OX' X)! X'varCyoXOX'X) lx; =x (X'X) lx,o’ 
则 
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var(y;) — xi OX' X2)! x;o? 


T 


au 





知 存在 X ER, 3 fi 


d(X,)— min max x'CX' X) ix 
XER, xEX 





成 立 ， 则 称 Xe。 为 G- 最 优 的 设计 矩阵。G- 最 优 准 则 是 使 预报 值 在 整个 区 域 中 的 最 大 方差 达 
到 最 小 的 设计 ， 故 也 称 min max 设计 。 
上 面 都 是 假设 试验 次 数 ” 是 固定 的 ， 通 常 称 为 离散 型 设计 ， 记 和 拢 阵 


为 信息 阵 。 以 上 介绍 的 各 种 最 优 准 则 实质 上 是 讨论 信息 阵 的 某 一 函数 AOM ) 的 最 小 值 问题 。 
dx tle x 的 取 值 域 GRK), Kiefer 在 针 引 进 一 个 测度 jy(x)。 定 义 信息 阵 M 二 (Gm; ) 中 
Hm ; 为 


























m ij =| xa; du (x) (3-28) 





给 出 了 一 个 测度 wx) 就 相当 于 给 出 一 个 设计 ， 这 样 的 设计 称 为 连续 型 设计 。Kiefer 证 明了 
在 连续 型 设计 中 了 -最 优 与 G- 最 优 的 等 价 性 的 著名 定理 。 但 在 离散 型 设计 中 ， 有 例子 说 明 
D- 最 优 可 以 不 是 G- 最 优 。 在 最 优 试验 设计 中 ， 有 实际 应 用 意义 的 是 离散 型 设计 。 

二 、D- 最 优 设计 

对 于 式 (3-19) 表示 的 回归 模型 可 以 编制 出 各 种 试验 设计 ， 评 价 这 些 设计 的 好 坏 ， 可 以 
从 试验 点 的 多 少 〈 如 部 分 因子 设计 、 均 匀 设 计 ) 来 评价 ， 也 可 以 从 计算 简 繁 ( 如 因子 设计 、 
正 交 设 计 等 ) 来 评价 。 从 上 节 的 讨论 可 知 ，D -最 优 设 计 是 从 对 模型 的 参数 及 的 估计 好 坏 来 
评价 的 。 

对 给 定 的 模型 ， 可 以 寻找 一 个 试验 设计 9， 通过 试验 得 到 一 组 数据 ， 然 后 根据 最 小 二 乘 
法 来 获得 B 的 估计 。 对 于 不 同 的 试验 设计 ， 可 得 到 不 同 的 最 小 二 乘 佑 计 。 为 了 评价 这 些 参数 
估计 的 好 坏 ， 需 要 对 这 些 参数 的 估计 值 进行 综合 考察 ，D- 最 优 就 是 用 它们 的 密集 椭 球 体 的 
体积 的 大 小 来 评价 的 。 

试验 设计 定义 “给 定 因 子 空间 中 的 一 组 点 x 一 (xl ，xy，…，x,)， 和 与 其 对 应 的 一 组 
数 Gis per to ba) HP piSn;/N, ni 为 第 i 点 的 重复 实验 次 数 ， 显 然 ， 有 站 p; =l. 
这 样 的 一 种 安排 ， 称 为 一 个 规范 化 设计 Q。 在 这 里 ，p; 称 为 点 x; 的 测度 ， 

密集 椭 球 体 定义 ” 设 E== (A. soe En) 是 加 维 随机 向 量 ， 其 均值 和 相关 和 矩 存在 ， 
可 在 m 维 空间 中 寻找 一 个 椭 球 ， 使 得 在 该 椭 球 体 所 用 区 域 上 的 mm 维 均匀 分 布 的 随机 变量 与 
具有 相同 的 均值 与 相关 矩 ， 具 有 这 种 特性 的 机 球体 称 为 随机 向 量 * 的 密集 椭 球 体 。 密 集 机 
球体 体积 的 大 小 ， 可 作为 衡量 随机 向 量 和 分散 程 度 的 一 个 指标 。 

假如 已 知 m 个 参数 — (hs Bas cns Pn) 的 均值 和 相关 和 矩 ， 就 可 以 找到 它 的 密集 椭 球 
休 。 一 般 说 来 ， 不 同 的 设计 2 有 不 同 的 密集 椭 球 体 ， 所 以 回归 系数 B 的 密集 椭 球 体 的 体积 
V 是 与 试验 设计 Q 有 关 的 ， 即 V =V(Q) 。 对 某 一 个 试验 设计 2 ， 有 不 同 的 密集 椭 球 体 ， 回 
归 系 数 的 密集 椭 球 体 的 体积 VCQ) 与 该 设计 的 信息 矩阵 的 行列 式 | X CO X COD. | 有 如 
下 关系 


















































VR) — [On 4-22"? x"? J/[DGn/24- DV XXa) | ] 
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XB. rC) 表示 伽 马 函 数 。 在 同一 个 模型 下 ， 对 两 个 不 同 的 试验 设计 Qui Qs. XU 
V(Q1) 二 V(Q;)， 则 在 DD- 优 良性 的 意义 下 ,设计 0Q1 比 0; 好 ， 这 是 因为 密集 椭 球 体 体积 V 





CQ) 与 相应 的 信息 矩阵 行列 式 | XCX COO | 的 平方 根 成 反比 。 
设 所 研究 问题 的 回归 模型 为 


y =B sx ix?-re 
在 因子 区 域 一 1 二 x 三 1 上 比较 下 述 两 个 试验 设计 








0, X1 1 x5-—0 3 一 1 
n; =5 n, =5 ns 二 5 
TN Gq—-1l x$—0- w=] 
n; =4 n =T ns 二 4 





由 此 可 得 它们 的 试验 设计 和 矩阵 X 分 别 为 














1 —1 1 1 —1 1 
1 —1 1 1 —1 1 
1 —1 1 1 —1 1 
1 —1 1 1 —1 1 
1 —1 1 1 0 0 
1 0 0 1 0 0 
1 0 0 1 0 0 
Xi 一 |1 0 0 Xs=|1 0 0 
1 0 0 1 0 0 
1 0 0 1 0 0 
1 1 1 1 0 0 
1 1 1 1 1 1 
1 1 1 1 1 1 
1 1 1 1 1 1 
|1 1 1j |1 1 1] 
则 它们 的 信息 和 矩阵 (XiX), (XX) 分 别 为 
15 0 10 15 0 8 
(XIX1)=|0 10 0 (XIX2)=|0 8 0 
10 0 10 8 0 8 


|(XiX1)|=15X10X10—10X10X10=5X10X10=500 
|[(XX50| —215X8X8—8X8X8—7X8X8—448 
BEURICXITXODIZI(OXSX IBI. Æ D-DERTERJESSC P. Wil Qi ENR: 好 。 


三 、 等 价 定理 及 D- 最 优 设计 的 构造 














(3-29) 


在 给 定 的 因子 区 域 轧 上， 直接 用 前 述 方法 来 研究 和 构造 也 -最 优 设计 ， 一 般 还 是 很 困难 
的 。 为 了 克服 这 一 困难 ， 人 们 研究 了 与 D- 最 优 设计 有 关 的 G- 最 优 设计 的 等 价 问题 。 在 第 五 
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E: 





节 中 ， 曾 给 出 了 G- 最 优 准 则 ， 该 准则 的 目标 是 使 预报 值 在 整个 区 域 中 的 最 大 方差 达到 最 小 ， 
即 对 于 因子 区 域 轩 上 的 任意 两 个 设计 2 和， 若 有 
maxd (Xı ,01) 王 maxFCxz)(CXIXI) ! f (x) «maxd (X? 0 ) 王 maxFCx)(CXX) ! f (x) 


则 在 G- 最 优 意义 下 ,设计 Q1 比 Q2 好 。 在 此 


f1(x) 
gases Se) 
fi Cx) 
设 





下 面 ， 以 前 节 讨 论 的 两 个 设计 Qi HO: 为 例 ， 对 于 由 式 (3-290 表示 的 回归 模型 ， 
计 Q1 的 估计 方差 











dX1,0Q1)=f'(x) XIX1) ! f G2 





[15 0 10]^?[1 
一 (1,z,z2)|0 10 0 x 
10 0 10 z’ 
0. 2 0 —0.2]| 1 
—(l.c.u?) 0 0. 1 0 x 
| 一 0. 2 0 0.3 jlr? 


=0. 1X (3xrt— 3x? +2) 
PRX Grt 3r? +2) 在 因子 区 域 一 1 二 x 三 1 上 的 最 大 值 为 2， 所 以 


maxd (X1,01) —maxf'(x)(X1 Xi) ! f(x) —0. 1 max (3x! —32? 42) —0. 1X 2—0.2 


一 1] 委 z 和 1 


而 设计 Q。 的 估计 方差 

d(Xo.Qs) — ftx) XiX) I f (x) 
[15 0 8]^[1 
—(l.x.x?)| 0 8 0 Xx 
[8 0 8 g” 





0. 1429 0 一 0. 1429 1 
=(1,xz,x?) 0 0. 1250 0 x 
| —0. 1429 0 0.2679 || x? 


— (0. 2679:x^ —0. 1608x? +0. 1429) 
PK (0. 2679z4 一 0.1608z2 十 0. 1429). 在 因子 区 域 一 1 二 x 三 1 上 的 最 大 值 为 0.1429， 所 以 


maxd (X»,Q5»)-—maxf'(x) (X1 Xi) ! f Cx) 
= max (0.2679x*—0. 1608x? +0. 1429) 


lx]1 


—0. 1429 





| oj | 分 析 化 学 手册 0 化 学 计量 学 


因此 ， 在 G- 最 优 意义 下 ,设计 0Q1 仍 比 2， 好 。 
下 面 的 等 价 定理 告诉 我 们 ，D- 最 优 设计 与 G- 最 优 设计 是 等 价 的 ， 其 证 明 可 参见 文献 [20]. 
等 价 定理 : 下 面 三 个 结论 是 相互 等 价 的 : 
COD 试验 设计 0Q* 是 也 -最 优 的 ， 即 


[XQ* XQ*)|=max|X(Q* )'X(Q*)| (3-30) 
Q 














(2) 试验 设计 2 是 G- 最 优 的 ， 即 
maxf'(Ox)(Xi X1) !f (x) minmaxf'(x) CX1 X4) ! f (x) (3-31) 
fo x A 
(3) 试验 设计 Q* 使 得 
maxf GO (XiX1) 7! f G0 — m (未 知 参 数 个 数 ) (3-32) 





G) 是 由 (2) 得 来 的 ， 它 对 于 构造 和 检验 DD- 最 优 设计 较为 方便 。 下 面 应 用 等 价 定理 来 构 
造 出 一 个 设计 (此 例 引 自 文献 [20] )， 然 后 应 用 等 价 定理 去 验证 其 DD- 最 优 性 。 
E d fL Tr PS — 1L; EG —1,2, d) E, XF d 元 二 次 回归 模型 


y =p fa GO Bs f a GO He Bu f s GO re (3-33) 








式 中 
m=(d+1)(d+2)/2 
fı(x)=1 
fi (x)=z? 1«;j «d 
Tengo qued 
Ja caras. 2d --2xZk Xm ;l&u «jd 


设想 构造 这 样 的 品 - 最 优 设计 Q*， 它 的 试验 点 选 自 p 维 立方 体 的 27 个 顶点 ， 每 个 点 赋予 测 
E. (参见 前 节 的 试验 设计 定义 ,实际 上 ， 试 验 点 的 测度 一 定 ， 则 其 试验 重复 次 数 也 就 唯一 
确定 了 ， 试 验 设计 也 就 唯一 确定 了 ); dx24 1! 个 棱 的 中 点 ， 每 个 点 赋予 测度 vw; Cau? X277! 
个 二 维 面 的 中 点 ， 每 个 点 赋予 测度 tr。 这 样 的 设计 Q 是 由 


N —24 3[8--4d 十 d (d —1)] 


个 试验 点 构成 。 例 如 &=3 时 ， 这 样 的 设计 2 是 由 8 个 顶点 、12 条 棱 的 中 点 和 6 个 二 维 面 的 
中 心 ， 共 26 个 试验 点 构成 〈 见 图 3-10) 。 从 图 3-10 可 以 看 出 ， 假 如 d 维 立方 体 中 心 就 是 因 
子 空间 的 坐标 原点 ， 那 么 这 个 设计 2 的 试验 点 的 坐标 就 只 能 取 0， 一 1，1 三 种 情况 。 其 中 
顶点 的 坐标 都 不 为 0， 棱 的 中 点 的 坐标 中 只 有 一 个 为 0， 二 维 面 的 中 心 的 坐标 有 两 个 为 0。 
显然 ， 要 寻找 这 类 DD- 最 优 设计 ， 就 是 要 找 出 满足 DD- 最 优 性 的 测度 jy、v、t。 可 以 分 两 
步 进行 : 第 一 步 是 在 条 件 





























| 
下 ， 求 出 使 [XGO):X(C2)] 达 到 极 大 值 的 六 、w、r;， 进一步 验证 所 求 出 的 设计 是 否 满足 


maxf'GOC(Xi1 X07! f (x) 9m 
fœ) 
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三 因子 设计 的 试验 点 分 布 





第 一 步 : 首先 写 出 上 述 设计 2 BIS RABEELXCQO'XCOD ]. 
上 述 模 型 的 信息 矩阵 一 般 可 表示 为 


[X (Q0)! X CO) ] — Z pif (x) f (x)! 














MpifiQo Mbifi(Gx) fox) c pifilx) f(x) 
Dpifix) fox)  MpifiGO e M pif x) fn x) 
Dpi Ofm Spifi(x) f(x) > pif% (x) 
式 中 ， 
fix) 
jo- ee 
fu 


当 d=3 时， 上 述 设计 2 中 的 三 类 点 及 其 二 项 式 的 取 值 列 于 表 3-24. M 3-24 可 见 ， 


26 
20545, =0 (=1,2,3) 
- 


26 


2 barum, 一 0 (,j —1,2,3) 


t= 
26 


XD piha, =0 (j 关 0) 


t= 


26 


X) pz 2 tj =0 


t= 
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26 
D pirya tj T ik =0 


t=1 


26 
2 sinks us, = 
DiE UTGE qu = 


=] 


n 


H =>) pz} = PD pr #0 


t=1 t=1 


n 
E 2 2 
U =) pata? #0 


t=1 


设计 中 三 类 点 的 坐标 及 其 二 次 项 的 取 值 

































































实验 点 测度 p, Xo X1 X2 Xa X1X2 aiies 2 xi xi xi 
m 
点 :8 个 项 H 
点 i vox 
0 0 0 0 1 
0 = 0 0 一 0 1 
0 = 0 0 = 0 1 
1 0 一 = 0 0 1 0 1 
1 0 0 1 0 0 1 
第 二 类 0 一 0 =i 0 0 
点 :12 条 楼 v 
的 中 点 =j 0 0 =j 0 0 1 
1 = 0 = 0 1 0 1 0 
1 1 0 1 0 0 1 1 0 
1 =j 0 =j 0 0 1 0 
1 = 1 0 —1 0 0 1 0 
=j 一 1 0 1 0 0 1 0 
1 0 0 1 0 0 0 0 0 1 
0 0 =j 0 0 0 0 0 1 
第 三 类 0 1 0 0 0 0 0 1 0 
点 : 6 de T 
维 面 的 中 心 0 = 0 0 0 0 0 1 0 
1 1 0 0 0 0 0 1 0 0 
= 0 0 0 0 0 1 0 0 











如 果 在 上 述 设计 和 矩阵 GK 3-24) 中 ,把 x? (二 1,2,3) 移 
息 和 矩阵 为 (空白 处 为 零 ): 





至 





zo 和 zi 之 间 ， 那 么 它 的 信 
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1 NA AHA 4 
HA Au 
4u v dH oU 
Bos v n 
[X(Q)X (0]— i (3-34) 
H 
H 





U 











言 息 矩阵 [XGO)XC2)] 具 有 如 此 简单 的 形式 ， 是 因为 在 每 一 类 点 中 ， 除 了 xo Sx. 
zi aj 外 ， 其 他 各 列 之 间 都 存在 着 正 交 性 。 这 一 性 质 对 任意 正 整数 4 都 是 成 立 的 ， 只 要 
i OQ 中 的 试验 点 及 其 测度 满足 上 述 规 定 。 因 此 ， 在 一 般 情况 下 的 信息 矩阵 有 如 下 形式 ( 空 
白 处 为 零 ) : 





/ 


u 
[X(Q)'XC(Q) ]— (3-35) 
ula 


Ul aca—)/2 





RPF, I Hd 阶 单位 矩阵 ; u =u d 维 行 向 量 ; G 为 4 阶 方 阵 ， 其 对 角 线 
元 素 为 w， 其 他 元 素 为 v。 
根据 试验 点 坐标 的 性 质 ， 可 以 算得 





p=) piz} —u24 --v(d —1)241 E c24 [C2 — (4 — 0] 
t=1 





—24-3 {8u +4v(d—1)+r[(d—1)(d—2)]} 


n 
— 2.2 
m D fuia #0 
t—1 





= p2! qutd - 4-223105 —(7—13—602—25] 





=217? {8u +4v (d —20--e[ (4 —2») (4 —30 ]) 

















通过 计算 得 到 矩阵 [XCQ)'X(Q)] 的 行列 式 

ILX XQ)! X CQ) ]| =p Cuv) y+ C4 — 1)» — dv? ] (3-36) 
对 六 和 v 求 |LXGCO)XCG2)]| 的 极 大 值 ,也 就 是 在 条 件 un 770.0270 下 解 方程 组 
alLXCO)IXCO)] Van 一 (2 二 1 一 [CC 十 2)u 十 2]02 —2€p —2) o d- Cp — Dv? —0 








al[LXCO)XGO2)]l/av=(d 二 lu 一 [GZ 一 2)0 十 (十 2)p2 十 (pu 一 1)w2 一 0 
解 得 


d 十 3 


"=at paga lT F3d +7) td lld? H1217) ] 
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B gd 
” BED GE 2 


另 一 方面 ,在 式 (3-37) 条 件 








六 [42228522 4-114 —59--(Gd* -d 30 G4 4-124 17) V9] 





Dut Dut 3i«— 247 [8p +4dv+d(d—1)r]=1 (3-37) 
下 解 y 和 4 的 方程 组 得 








u—2 4 [(d—D(d—2)—24d (d —2)u-F d (d —1v] (3-38) 
一 2 4[04g —39)s—(d — Dod —2] (3-39) 
t=22 4[1-Fv—2p ] (3-40) 


再 把 jy 和 w 的 值 代入 可 得 








p=[21+1 (d +2)? (d +1)]~! {4d +12dë—25d*—107d? +85d? +479d +128) 


(2d?—d—19)d(d—1)(d 4-3) (Ad? +12d 4-17) 7? ) (3-41a) 





v=[21+}? (d +2)? (d +1)]~!{—(4dë +16d*—1ld? —143d? —149d +139) +4 





(2d? +d —15)(d—1)(d +3) (4d? +12d +17)! 》 (3-41b) 





p—[24*1(d +2)? (d 4-1) ]^! ((4d4 4- 24d? 2-434? — 24d 一 119) 
(2d? --3d —11) (d 4-3) (Ad? +12d 4-17)! } (3-41c) 
第 二 步 : IEOR EEX) AXA) JAYE [Hr 
b’ 
b E 
[xarxa] = : (3-42) 
H la 


v llaua-;2 


M 
a> 


h—[pu-- (id —Dv—dg?] ^! 





s=[u+(d—2)v—(d—1)u?]/ mv) 


a —[u - (d —1)]Ah 
b' —C- uh .— uh, .— uh) 
E 为 d xd 阶 方 阵 
sh Cu? —)0/(Qí —v) ]h. * [Gi —)/G —v) ]h 


[C2 —u ue) ]h sh e [G?—0/QG —v) jh 


E= (3-43) 


[Co /pp RR [Gu? —0)/ Cu —v) ]h sh 
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H u 和 uv BELA dOXi Qi — f GOCXIX ! f xD PBSCOXIX) 1 ,得 到 


dOX1,Q)0 =f GOOX1 X) f Go) 





d 
—(d Da +2)/2—c X) (c? — xt) 
j=l 





这 里 c Jg — IE 982 DEE SUE NL CB — 1r; SGS, d) E 


MORALA QU) — f*GOOX1 X10! f Sd D(d H2) 2 =m 








REEMA, EER u v5. t 的 值 是 满足 吃 -最 优 设计 条 件 的 ， 也 就 是 说 ，y、 
v. c 是 最 优 测度 ， 它 们 构成 的 设计 是 D- 最 优 设计 。 

在 & 委 5 的 情况 下 ， 根 据 式 (3-41) ARA u, vs t 的 值 列 于 表 3-25 中 。 

Æ d>6 时 ， 上 面 这 种 D- 最 优 设计 的 构造 方法 是 不 适合 的 ， 因 为 此 时 vu 二 0， 而 这 在 实 
际 上 是 不 可 能 的 。 


EEM d-5Hb bu. v. TH 

















d u v t d m v T 

1 0. 333 0. 333 0. 000 4 0. 03705 0. 00384 0.01185 
2 0. 1458 0. 08015 0. 0962 5 0.01926 0. 003125 0. 004475 
3 0.071975 0.01895 0.03280 





四 、 构 造 D- 最 优 设计 的 数值 方法 


D- 最 优 设计 的 基本 思想 很 类 似 于 组 合 设计 ， 就 是 先 通过 直觉 的 方法 给 出 试验 点 ， 然 后 
求 出 在 这 些 试验 点 上 满足 D- 最 优 性 的 测度 ， 最 后 用 等 价 定 理 进行 验证 ， 这 些 构造 D- 最 优 设 
计 的 方法 ， 关 键 在 于 在 给 定 的 因子 区 域 只 中 合理 地 选择 试验 点 和 规定 测度 ,使 设计 的 信息 
和 矩阵 达到 最 优 。 然 而 ， 这 样 的 方法 只 是 在 一 些 最 简单 情况 下 才 是 可 行 的 ， 一 般 情况 下 用 这 种 
方法 直接 构造 DD- 最 优 设 计 是 很 困难 的 。 所 以 人 们 又 转向 用 数值 方法 来 构造 DD- 最 优 设计 。 
所 谓 数 值 方法 ， 就 是 在 给 定 区 域 顺和 已 知 函数 列 f(z) 的 情况 下 ， 用 最 优化 方法 寻找 使 信 
息 和 矩阵 行列 式 















































AO) =| LXCOD)IXCO)] | 


一 | D pif apf az;) | 
i=1 


=L (X1X23* Xn p1 P2" Pn) (3-44) 


在 pi zo Xp: = 
i=l 
条 件 下 达到 最 大 的 zx;， 和 p; G—l. 2, 0, n) 的 值 。 
EI, MARŽA f(x) 有 如 下 定义 ， 如 有 下 述 的 回归 模型 
yit fax, x;- Baxix; t sx +per? te (3-45) 


则 f(x) 具有 如 下 形式 
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qk 
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f (x)= (3-46) 








下 面 将 简单 介绍 一 种 寻找 DD- 最 优 设计 的 数值 方法 。 为 了 方便 ， 仍 以 式 (3-19) 为 模型 
来 进行 讨论 ， 
(一 ) 线性 组 合 设计 


设 























XqpeXi2 stt Xa X21:X22 5*1 X29, 
1 ; (2 
Pis P2» 77 * Pn Qi* q2% ""*Qm 


是 两 个 规范 设计 ， 则 按 试验 设计 的 定义 ， 有 

















如 果 a 是 1L0，1] 区 间 上 的 数 ， 则 


Dapit Daq; = —a) X p; +a 214; 2(0—2)-a —1 


i=1 j=1 i-1 7 一 1 





因此 ， 由 设计 Q1 和 0 得 到 的 设计 


Xii X12* Ut, Xin¥21» X225 ttt Xom 


(1—a)pj. (1—2)ps. ey (1—2a)p,aqi: aq» Ut QUm 
仍 是 一 规范 设计 ， 并 称 2 09 Qi. Qs» 的 线性 组 合 设计 ， 记 为 








Q —(1—2a)01 +N? (3-47) 
线性 组 合 设计 Q 的 信息 矩阵 4(2) 5 Qi. Q: If IRE A CQ) AMAR) 的 关系 为 
AN) —(1—22ACQ1) +A CQ2) (3-48) 


《二 ) 一 点 设计 
只 含 一 个 试验 点 xo 的 设计 称 为 一 点 设计 ， 记 之 为 Q(xo) ， 显 然 ， 试验 点 xo 的 测度 为 
po 一 1。 设 N. (x) 为 任意 设计 





X11 X22 Xn 


DisDa2st pn 
并 设 N, a) 是 Q(x) 与 Q(xo) 的 线性 组 合 设计 ， 即 Q, (x) 为 


Xis’ Xos Ut, XnXo 
al 


(1—2a)pij. (1—2)ps. ** C(1—2a2p,a 
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则 由 式 (3-48) 可知 
A CQ) 一 (1 一 ao)4(CO) 十 aa(COCxzo)) — (0— 80A CQ4) c af (xD f (x9)! (3-49) 
根据 行列 式 的 性 质 (参见 第 十 一 章 )， 易 得 
[AQ | 2 0.—20* | ANa) - [a /(0. —a2 ]f æ) fx) | 
—(1—2a)"(1--[a/(a0—2a)]d xo^ Qo0)) | Aa) | 


式 中 , dxo, QU HH Axo) 的 方差 函数 在 点 zw 的 值 。 

(三 ) 一 个 构造 D- 最 优 设计 的 数值 方 

在 同一 回归 模型 下 ， 如 果 对 于 两 个 不 同 的 设计 Q, 和 2.， 如 有 Il4(2o)| 二 14(C2.)|, 则 
E D-REX F.W Qe HO. 好 。 那 么 ,对 于 任 一 设计 2。 与 一 点 设计 Q(xo) 的 组 合 设 计 
Q, ,怎样 才能 使 Qo FEQ, 好 呢 ? 事实 上 ,只 要 点 xo 是 设计 Q(xo) 的 方差 函数 的 最 大 值 点 , 即 
xo 满足 





















































(Xo Qo )=maxd (x Qo) 


并 取 组 合 系数 a 为 
a —[d (xo ,Qo5) —m ]/ (m[d (x9 29) —1]) (3-50) 
MYA | A) [>] ANR.) | ， 即 设计 Q, 比 2。 好 ， 并 且 在 所 有 的 线性 组 合 设 计 (1 一 
a)Q, 十 aQ(xo) P, | ACQ) | 是 信息 矩阵 行列 式 值 最 大 的 。 
按 上 述 方法 ， 由 初始 设计 Q。 可 得 到 一 新 设计 0Q,， 如 果 设 计 OQ, 还 不 是 吃 -最 优 的 ， 那 
A, ÆR, 的 基础 上 ， 再 找到 一 点 xl ， 使 得 




















d(x;,.Q))— maxd (x.Q1) (3-51) 
并 取 组 合 系数 ai 为 
ai; —[d(x4.01) —m]/im[d(x1.Q1) —1]) (3-52) 
再 构造 一 个 设计 2。 与 一 点 设计 0Q1 的 线性 组 合 
N. —(1— 220, 十 ac101 (3-53) 





Pi 


WEE |AN.) |>] A) |. MO. ENR, 好， 如 果 设 计 0Q。 还 不 是 DD- 最 优 的 ， 又 可 按 上 述 
方法 找到 一 个 Q4 ,不 断 重复 上 述 过 程 ， 结 果 有 两 种 可 能 ,一 是 在 第 k& 步 得 到 的 设计 0Q4 W 
JE maxd (x，Q4) 二 m ， 即 Q4 是 DD- 最 优 的 ， 男 一 种 可 能 是 这 一 过 程 无 限 重复 进行 ， 得 到 一 
系列 设计 

















(Qa, NQ, Qes tts Qi, TRE 





并 且 有 
| A Ra) | «| A) [<] A.) I< <] AR | In (3-54) 
可 以 证 明 上 述 系列 是 收敛 的 ， 即 
lim | AQ [=| A) | (3-55) 


式 中 ，2 ”为 也 -最 优 设计 。 
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综 上 所 述 ， 用 数值 方法 构造 D- 最 优 设计 的 步骤 如 下 : 
O 给 出 一 个 初始 设计 0Q0 
Xis Xos 778 Xn 


No 
pi; P2* ts Dn 


RH, pi >0, X pi=1; |A) [50 
i-—l 


E k=O 
© 计算 出 信息 矩阵 4(2。) 及 | A(Q0)|。 
O 在 因子 区 域 轩 上 ， 求 出 方差 函数 d (x ，Q24) 的 最 大 值 


d=d(xr, Qi) - maxd x, Q4) (3-56) 
式 中 
d(x, Q4) 一 Frz)LXGODIXCGO ] f Qe) 
@ 如 果 d—m-A (A 为 一 预 置 精度 ， 一 般 取 A 二 0.05)， 则 停止 迭代 ，Q4 就 是 要 寻找 
的 近似 DD- 最 优 设计 ， 否 则 计算 
ar =(d—m)/Lm(d—1)] 
O 作 设 计 Q4 与 一 点 设计 Q(x4) 的 线性 组 合 


Qaa = a y 2 FaN lx) 














得 新 设计 Q4+1， 并 计算 出 
A Ga ) —(1 — Qh )A (Q, ) d- a 4ALQ G4) ] 





| AQ) [5 ((0—a420" (1-F [a4 /(1— a4) ]d) | A) | 


A k=k+1 
© Om EERIBNEQ—O0. HZd—m-A. 
用 上 述 算法 ， 可 算得 6 维 因 子 空间 的 二 次 DD- 最 优 设计 。 


五 、 饱 和 DD- 最 优 设计 


一 个 比较 理想 的 试验 设计 除了 要 满足 某 种 优良 性 以 外 ， 一般 还 要 求 它 所 包含 的 试验 点 数 
越 少 越 好 ， 如 果 试 验 点 数 等 于 所 要 确定 的 未 知 参数 的 个 数 ， 则 称 该 设计 为 饱和 设计 ，。 

值得 提出 的 是 ， 由 于 试验 点 数 与 未 知 参数 的 个 数 相等 ， 故 不 存在 剩余 自由 度 ， 除 非 进 行 
重复 试验 ， 和 否则 无 法 对 回归 方程 进行 显著 性 检验 。 

(一 ) 一 次 饱和 D- 最 优 设计 

XT. s 维 立 方 体 一 1 二 x ;二 1G 二 1,2,…,s) 上 的 一 次 回归 模型 


y 王 po 十 Bizli 十 Bazz 十 psz3s 十 人 十 Brz， 




















存在 这 样 一 个 定理 : 

E s 维 立 方 体 上 选取 CHD 个 点 以 组 成 一 次 饱和 也 -最 优 设计 时 ， 只 要 考虑 选取 各 个 
坐标 都 为 一 1 或 1 的 那些 点 。 

在 这 个 定理 的 基础 上 ， 用 计算 机 可 很 容易 地 找到 s 维 立方 体 的 一 次 饱和 万 -最 优 设计 : 
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当 s=2 时 ， 正 方形 区 域 的 任何 三 个 不 同 项 点 都 可 组 成 D- 最 优 设计 ; 

当 s 二 3 时， 立方 体 区 域 上 有 23 ! 个 部 分 项 点 所 构成 的 试验 设计 ， 是 D- 最 优 设计 ; 

当 ys 二 4 时， DD- 最 优 设 计 是 






































Tı T2 T3 Ta 
D 三 本 1 一 1 
1 Ls] 1 
二 二 1 1 
1 1 1 
=] il 1 一 1 
X s=5 时 ,DD- 最 优 设计 是 
X X2 X3 T4 X5 X X2 X3 XA X5 
1 1 1 1 eb e D =1 =i 
L —1 p 1 一 1 1 1 1 1 1 
1 1 一 1 一 1| 或 1 —1 —1 1 —1 
e. 1 一 1 1 1 1 1 1 1 
一 1 1 1 i =] —1 ] 一 1 i =] 
一 1 1 一 1 一 1 1 1 一 1 一 1 一 1 
当 二 6 时 ,DD- 最 优 设计 是 
Žij X» Xa vert X5 X 
—1 1 p poe 1 
=} =] DLL c c 
—1 p] =i 1 [D =į 
mp d =] 1 一 1 1 
1 1 1 1 1 1 
1 1 1 1 ] 1 
1 一 1 1 il 1 











当 s 二 7 时 ,立方体 区 域 上 有 2” t4 ABA) ARA, AE DD- 最 优 设计 。 
由 于 在 饱和 设计 中 ， 结 构 和 矩阵 X 是 一 个 方 了 泗 ， 所 以 信息 和 矩阵 








A(Q)=|X'X|=|X|? (3-57) 





A(Q) 最 大 ， 也 就 是 | X | 最大。 一 般 说 来 ， 当 (s 十 1) 是 2 WEKEN, s 个 因子 的 一 次 
饱和 呈 p- 最 优 设 计 ， 就 可 根据 本 章 第 二 节 所 讨论 的 部 分 因子 设计 方案 来 进行 。 

(CO 二 次 饱和 D- 最 优 设计 

对 于 二 次 回归 模型 











y=Bo + X biz; + X Byxiz; (3-58) 
j=l 


icj 





待 估 人 参数 的 个 数 为 (1 十 十 * 十 C2) 王 [1 F2s+s(s—1)/2]=[(2+3s+8s?)/2]=(s +1) (s+ 
2)/2， 那 么 是 否 存在 含 试验 点 个 数 就 为 m= 二 Gs 十 1D)(s 十 2)/2 ff D - Exo UE? 有 人 已 
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经 证 明 ， 对 szm7 不 存在 饱和 DD- 最 优 设 计 。 
当 s= 二 2，3 时 , 饱和 成- 最 优 设 计 列 于 表 3-26， 表 中 还 列 出 了 ss==2 时 的 7 点 和 8 点 的 非 
































饱和 了 -最 优 设计 。 
s=2, 3 时 的 饱和 D- 最 优 设计 
s=2 s=3 
试 验 号 6 点 计划 7 点 计划 8 点 计划 10 点 计划 
X1 X2 X1 X2 X1 X35 X1 X2 X3 
1 —1 —1 — —1 —1 — —1 — —1 
2 1 —1 —1 1 — 1 — —1 
3 =i 1 一 1 一 1 1 一 1 一 1 
4 一 人 6 1 1 一 1 一 ji 
5 1 38 | —0.092 0. 092 1 0 一 1 a a 
6 38 1 — 0. 067 0. 032 1 a — a 
7 0. 067 —1 0. 032 — a a —1 
8 9 一 (4 一 V3 )/3 一 0. 216 0 B 1 
9 —0. 1315 1 p 1 
10 1 p 
a—0. 1925 
f —0. 2912 
XT cA WEM DD- 最 优 设计 ， 至 今 尚未 解决 。 对 于 s 二 4， 有 人 找到 了 一 个 较 好 的 15 


点 设计 ， 示 于 表 3-27。 在 表 3-27 中 ， 


f-g--1, a—B-— —0. 25 
y— —0. 60, 9 一 一 /一 0. 05 
这 时 ACQ) =| XO XN) |=0. 344547 X 1079 


如 进一步 修改 a、B、7Y、5 和 的 值 ， 取 
a=—0. 21, B= 一 0.27 
y7—0.64, 6 二 一 二 0.03 
则 ACQ) =| XO X(N) |=0. 345329 X 1075 
显然 ， 此 值 比 前 面 的 设计 略 大 一 些 。 
s=4 的 15 点 设计 

















试 验 号 Xi X2 X3 X4 试 验 号 Xi X2 Xs X4 
4 —1 a a a 1 f h = 
6 B ò = 13 f = h 
11 B = ô 3 = = = = 
10 B 1 6 5 1 = S 
14 1 Y 2 1 = = 
15 1 1 y l 9 1 x = 1 
8 1 1 y 12 g 
7 f h e 1 
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A 
E: 


095 | 


根据 s—2. 3 时 的 饱和 DD- 最 优 设计 的 试验 点 结构 ， 得 到 一 般 的 二 次 饱和 设计 的 方案 





( 见 表 3-28)。 


pUKEA s 个 因子 的 二 次 饱和 设计 
























































ik 验 类 别 X1 X2 X3 Xa 
一 个 点 一 1 一 1 一 =- 
—i men — 
s 个 点 :1 个 坐标 是 1,* 一 1 个 坐标 是 一 1 M j m m 
Hu =i z 一 
; 个 点 :1 个 坐标 是 ws 一 1 个 坐标 是 1 i " B i 
加 加 s " 
À À =f —1 
sCs 1) i. E a EN = 
个 点 :2 个 坐标 是 4,p 一 2 个 坐标 A l A l 
是 一 1 
=] =j =} À 
对 于 表 3-29 28:8 gd. Hifi EE EITI 
ACQ)—|XCQ»)!XCO)| =IXQ) |? (3-59) 
同时 [X(QQ)]—2: (A-1567 DE OOo) —-20—DG —10G—2»/(G4 10 ]67? 
[(u?—1)—4(0 —DG—0DG-cgu—2)/(Q41)] (3-60) 


求 式 (3-60) 的 极 大 值 , 只 要 解 方程 组 

















9|X(Q)|/8A—0 


8|X(0)l/8u —0 


求 得 使 |X(Q)| 达 到 极 大 的 * 和 yj。 上 面 的 方程 组 消去 4 后 ,得 到 一 个 jy 的 9 次 多 项 式 , 这 9 
次 多 项 式 的 9 个 根 ,除了 下 面 3 个 整 根 外 ， 








u= 


l,u=2 


s y =3— 2s 


其 他 6 个 根 中 只 有 一 个 在 s EIR, TE 18a; AG 一 1,2,5) 内 ,对 s 委 15 算出 的 A 的 值 列 
ER 3-29 中 。 从 表 中 可 以 看 出 , 当 s=2,3 时 ,4x 的 值 就 是 二 次 饱和 D- 最 优 设计 的 参数 值 。 


s<15 RJ A.u 的 值 























维 数 s u À 维 数 s u À 
2 0. 3944 —0. 1315 9 — 0. 9602 0. 7544 
3 —0.2912 0. 1925 10 — 0. 9693 0. 7803 
4 — 0. 6502 0. 4114 1 = 0 9757 0. 8022 
5 —0. 8103 0. 5355 12 — 0. 9802 0. 8198 
6 —0. 8354 0. 6103 3 — 0. 9836 0. 8346 
6i 0. 9242 0.6772 14 — 0. 9862 0. 8471 
8 — 0. 9464 0. 7208 5 — 0. 9882 0. 8579 
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六 、 几 种 常用 最 优 混合 设计 表 


K 3-30— 3€ 3-34 是 3 个 3 因素 和 2 个 4 因素 的 D- 最 优 设计 表 ， 其 中 3 因素 的 分 别 为 
10 次 试验 和 11 次 试验 用 ， 而 4 因素 的 都 是 为 16 次 试验 用 的 。 


ESEEdU 3 因素 10 次 D- 最 优 设计 表 

















Xo X4 X3 Xa Xo X4 X3 X3 
il 0 0 1. 291 1 1 ii 0. 639 
J 0 0 一 0. 136 ii 1. 174 0 —0. 927 
J =S = 0. 639 J —]1. 174 0 一 0. 927 
1 1 —] 0. 639 l 0 1. 174 —0. 927 
il = 1 0. 639 1 0 —1. 174 一 0. 927 









































Xo X4 X5 X3 Xo X4 X3 X3 
0 0 2 T 2 2 = 
0 0 =2 il -— =2 =] 
—1. 414 —1. 414 1 1 0 0 = 
1. 414 —1. 414 1 由 0 0 =] 
—1. 414 1. 414 1 i 0 0 0 
1. 414 1. 414 1 





另 一 种 3 因素 11 次 D- 最 优 设计 表 





Xo X1 Xa X3 Xo X1 Xa Xa 
0 0 2. 450 1 0.751 2.106 =q 
0 0 一 2.450 1 2. 106 —(0. 751 = 
=0 Tgl 2. 106 1 l —0 751 —2. 0106 —1 
2. 106 o. 5l 1 1 —2. 106 0.751 = 
0. 751 — 2. 106 1 1 0 0 0 
=2, 106 = 051 ] 

















DARE 4 因素 16 次 D- 最 优 设计 表 





Xo X, X3 X3 X4 Xo X4 X5 X3 X4 
0 0 0 1. 7884 ex 1 1 0. 644 
0 0 0 —1. 784 1 1 1 0. 644 
= =f =f 0.644 1. 685 0 0 一 0. 908 
= = 0.6 —1. 685 0 0 一 0. 908 
z. l = 0. 644 0 1.685 0 — 0. 908 
aci 0. 644 0 —1. 685 0 —40. 908 
—1 =f 1 0. 644 0 0 1.685 一 0. 908 
Is 0. 644 0 0 一 1.685 一 0. 908 
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另 一 个 4 因素 16 次 D- 最 优 设计 表 

















Xo X1 X2 X3 X4 Xo X1 X3 X3 X4 
0 0 0 1.7884 1 Ez] 1 J 0. 644 
0 0 0 — 1. 784 1 1 1 0. 644 
一 E — 0.6 1.685 0 0 —0. 908 
> = 0.6 — 1.685 0 0 —0.908 
T => 0.6 0 1. 685 0 — 0. 908 
= 0.6 0 —]. 685 0 — 0. 908 
ad E 0.6 0 0 1. 685 — 0. 908 
= 0.6 0 0 —1. 685 —0. 908 









































第 六 节 ”单纯 形 试验 设计 法 


单纯 形 试验 设计 法 是 一 种 序 贯 试验 设计 方法 ， 既 可 用 来 进行 试验 设计 又 可 直接 用 于 试验 
寻 优 ， 它 由 Ernst[20 提 出， 在 化 学 计量 学 中 成 为 引 人 注 目的 试验 优化 方法 ，Deming 等 对 此 
有 详细 综述 22] 。 原 始 的 简单 单纯 形 法 经 过 许多 改进 ， 如 Nelder 等 改进 的 单纯 形 法 [523 等 在 
化 学 试验 中 应 用 较 广 。 

YE s 维 空间 R: 中 ,单纯 形 是 指 具 有 ;十 1 个 顶点 的 多 面体 ， 若 各 个 楼 长 彼此 相等 ， 则 称 
为 正规 单纯 形 。 在 二 维 空间 中 ，;s 十 1 二 3， 即 三 角形 是 单纯 形 ， 等 边 三 角形 是 正规 单纯 形 。 
单纯 形 试 验 设计 法 是 以 单纯 形 顶 点 的 坐标 表述 为 试验 各 因素 的 水 平 取 值 ， 在 二 维 空间 中 的 三 
角形 顶点 坐标 (i r) 表述 的 是 两 个 因素 的 相应 水 平 。 如 有 个 因素 ， 则 用 s 维 空间 的 
单纯 形 顶 点 表述 这 ; 个 因素 的 不 同 水 平 ， 按 照 起 始 单 纯 形 的 ;十 1 个 顶点 的 坐标 来 安排 ;十 1 
个 试验 ， 然 后 通过 比较 这 些 试验 结果 ， 淘 汰 其 中 指标 值 最 差 的 试验 点 ， 在 可 能 改进 试验 指标 
的 方向 新 增 一 个 试验 点 ， 再 作 一 次 试验 ， 继 续 单纯 形 搜索 。 

首先 讨论 起 始 单纯 形 的 选取 。 设 (vi. vs ceo vos von) Æ Ro 中 某 一 单纯 形 ;十 1 个 
顶点 的 位 置 矢量 。 JU FH v; 表示 试验 中 * 个 因素 的 水 平 , 令 ; 个 因素 各 取 某 一 起 始 水 平 的 点 
xz0， 这 个 起 始点 可 根据 化 学 知识 与 经 验 选 取 。 对 于 每 一 个 因素 ， 根 据 化 学 家 的 经 验 选 定 一 个 
步 长 。 步 长 代表 的 是 考虑 每 一 因素 的 影响 时 ， 从 起 始 水 平移 动 的 幅度 。 例 如 选 定 起 始 pH fü 
为 7.0， 如 选择 步 长 为 0.5， 即 是 从 7.0 出 发 按 0.5 间距 改变 pH 值 作 试验 。 经 过 变换 ， 可 

































































将 原 为 不 同 数值 与 单位 的 各 因素 的 步 长 化 为 相同 的 数值 a。 可 以 证 明 ， 对 给 定 的 某 一 个 顶点 
xo 和 正 数 a， 按 式 (3-61) 取 定 的 单纯 形 是 以 xo 为 顶点 且 棱 长 为 a 的 正规 单纯 形 。 
vi S Xo (3-61a) 
v;—xodzG) (一 2,3, 十 1) (3-61b) 


RP, GO s ERE., 


;一 1 
zG)-—[q.. q ,p,q ,gq]! (3-62) 
式 中 
pGQs-F1-4s—0D[e/G42)] (3-63a) 


q=(Vs+#1—1)[ae/(s42)] (3-63b) 
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现 计 算 vi 与 v1 的 距离 : 
lv; =v 1 ?= || xg 4-2 G2—x; ||? 
= || zG) ||? 
—(s—Dq?-- p? 
一 (G 一 1)(CWS 十 1 一 1)2[ae/GsV2)] 2 十 (MsS 十 1 十 * 一 1)2[a/CsV2 XY 
—[a?/(2s?) ](G —1) G2-1—24/s-1 +D His +1+2/sF1(s—1)+(s—1)2]} 
—[a?/(252) (6G —Ds-F2G— D sd-1-- G—1)2) 




















—[a?/(25?) (s?—s-4-2s —2-4-s-1-9- 5? —2s 4-1) 





—[a?/(2s?) ] (2:7) 
=g? (3-64) 
可 见 这 个 有 s 十 1 个 顶点 的 单纯 形 各 棱 长 均 为 a。 令 二 [v1 v2,… ,vj]', 则 各 个 顶点 的 坐标 


可 分 别 为 
vy?—[v4-- psvocquv,q] 








ys —[vi ta vs t pov ta] 


v;nic[v-q.5- q.v, tp] 
可 见 只 要 根据 经 验 确定 了 一 个 可 行 的 起 始点 vi 和 步 长 x， 就 能 开始 试验 。 关 于 p. q 值 的 选 
取 可 容易 根据 式 (3-630 计算 ， 表 3-35 给 出 了 几 个 例子 。 


计算 起 始 单纯 形 的 p、9 值 








s P q s p q 

2 0. 966a 0. 259a 5 0. 911« 0. 204a 
3 0. 943a 0. 236a 6 0. 901a 0. 194a 
4 0. 926a 0. 219a 





设 试验 的 目的 是 搜索 指标 取 值 最 大 的 最 佳 点 。 比 较 各 v; 的 指标 取 值 ， 设 vy， 是 各 点 中 的 
最 差点 ， 则 进行 反射 ， 去 掉 最 差点 vw， 用 其 对 称 点 作 新 试验 点 。 先 求 去 掉 ww 后 余下 各 点 的 
形 心 vg 





sl 


ve =0/s) `)v; (3-65) 
sm 
反射 是 按 式 (3-66) 求 发 射 点 vi 
1 一 Ye 十 De 一 pw) (3-66) 





当 s=2 时 ， 在 二 维 平面 上 绘 出 有 关 图 形 ， 见 图 3-11. X B—1 进行 反射 得 到 反射 点 wr， 原 
始 的 简单 单纯 形 要 求 将 v1 与 原单 纯 形 中 剩余 的 点 进行 比较 ， 找 出 新 的 最 差点 继续 寻 优 。 如 
反射 点 在 新 的 单纯 形 中 本 身 就 是 最 差点 ， 则 不 返回 反射 〈 这 将 形成 死 循环 ) ， 而 是 将 新 单纯 
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形 中 的 次 差点 去 掉 ， 按 前 面 弃 去 最 差点 相同 的 方法 反射 ( 取 8 二 1)。 如 反射 点 超出 实验 条 件 
可 行 域 范围 ， 即 无 法 按 其 坐标 所 示 条 件 安排 试验 ,将 此 点 赋予 很 差 的 响应 值 ， 即 令 其 为 当前 
最 差点 。 如 某 一 试验 点 连续 在 s 十 1 个 单纯 形 中 是 保留 点 ， 则 应 予 复核 ， 考 察 该 点 是 否 确 为 
当前 最 佳 点 ， 或 是 由 误差 引起 。 如 确认 该 点 是 当前 最 佳 点 ， 保 留 该 点 ， 缩 小 步 长 继续 进行 单 
纯 形 寻 优 。 














Xl 


单纯 形 的 反射 





改进 的 单纯 形 法 能 加 速 最 优 条 件 的 寻找 。 考 虑 到 反射 前 "w 是 最 差点 ， 可 能 出 现 以 下 三 
种 情况 。 

第 一 种 情况 : 反射 点 v. 是 当前 最 佳 点 ， 即 较 原 试验 点 中 最 佳 点 更 优 。 这 时 自然 考虑 是 
否 继续 沿 由 vy KATA v, 的 方向 延伸 。 这 就 是 说 ， 当 v* 是 当前 最 佳 点 ， 进 行 延伸 到 ve: 


Ve =vg FY Yr Yw) (3-67) 


在 计算 延伸 点 v. 的 式 (3-67) F, y>1, RAER OD KRO., WAA y 王 2。 如 得 
到 的 ve 点 优 于 点 v:， 保 留 v。 与 原 留 下 的 各 点 CIT vr. vu 构成 新 单纯 形 (已 不 是 正规 
单纯 形 ) ， 继 续 寻 优 。 

第 二 种 情况 : v. 不 是 当前 最 佳 点 ， 但 也 不 是 除 ww 以 外 的 最 差点 CER ww DAR. v. 还 比 
v; 中 某 点 好 )， 这 时 保留 wm， 弃 去 ww， 组 成 新 单纯 形 继续 寻 优 。 

第 三 种 情况 : v. 较 原 单纯 形 次 差点 差 , 即 暂 不 计 ww ,yw 是 最 差点 。 这 时 考虑 收缩 , 需 注意 
两 种 情况 : 

OD ve EG vs 好 ， 爸 去 vr， 对 yi 一 ve 收缩 为 v。， 即 

yc 一 yg 十 YX(Cyr 一 yg) 

式 中 ,7 是 收缩 系数 ， 一 般 取 y= 王 1/2。 如 we HG v. 好 ， 保留 v.， 与 除 vw 以 外 的 原 顶 点 
组 成 单纯 形 再 寻 优 ; 如 ve 比 v: 差 , 舍 去 v。， 缩 小 原单 纯 形 继 续 寻 优 。 所 谓 缩小 单纯 形 ， 是 
指 保持 原 最 佳 点 ， 将 棱 长 缩小 〈 例 如 减 半 ) 形成 单纯 形 。 

(2) v. IG v 28. E vu XL vu vg 收缩 为 v. . B 
































v. =y cy Ow —vg) 


Kove 与 ww 比较 ， lvo HE vs 好 ,保留 v ,与 除 v, 以 外 的 原 顶 点 组 成 单纯 形 再 寻 优 : 如 vy 
比 ww 差 ， 侈 去 vv， 保留 原 最 佳 点 将 楼 长 缩小 的 单纯 形 继续 寻 优 。 
在 s==2 的 情况 下 ， 反射、 延伸 与 收缩 的 情况 示意 于 图 3-12。 
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X, 


单纯 形 的 反射 、 延 伸 与 收缩 


改进 单纯 形 法 的 终止 准则 仍 与 前 述 简单 单纯 形 法 相同 。 在 一 个 点 经 过 ?十 1 次 单纯 形 移 
动 后 仍 未 被 淘汰 ， 即 应 予 复核 ， 如 被 肯定 是 当前 最 优点 ， 缩 小 步 长 继续 试验 ， 直 至 达到 精度 
为 止 。 单 纯 形 试验 寻 优 法 一 般 说 来 只 能 找到 局 部 最 优点 ， 因 其 本 质 上 还 只 是 一 种 局 部 最 优 方 
法 。 但 因 其 方便 易 行 ， 在 化 学 研究 中 得 到 了 广泛 应 用 。 


第 七 节 混 料 试验 设计 方法 


人 化工、 材料、 冶金、 食品、 精细 化 工 等 领域 的 产品 大 多 是 几 种 化 学 成 分 混合 后 加 工 制造 
出 来 的 ， 它 们 的 某 项 或 某 几 项 特性 指标 与 混合 成 分 所 占 比 全 有 关 。 如 何 确定 各 成 分 在 混 料 
(或 称 配方 ) 中 所 占 比例 ， 以 使 我 们 感 兴趣 的 特性 指标 在 一 定 条 件 下 达到 最 优 ， 是 生产 和 科 
研 中 的 一 个 重要 问题 。 在 这 方面 国内 已 有 一 些 专著 出 版 ， 本 节 只 讨论 一 些 基 本 问题 ， 有 兴 
的 读者 可 参阅 文献 [24]。 在 混 料 问题 中 ， 试 验 的 响应 值 仅 与 每 种 组 分 的 百分比 有 关 ， 而 与 
混 料 的 总 量 无 关 。 每 种 成 分 所 占 的 百分比 只 能 在 0 一 1 之 间 变 化 ， 其 相 加 总 和 必须 是 1。 设 
ziG—1l. 2. 8. s) 是 第 i 种 成 分 的 百分比 ， 则 混 料 问题 要 受 如 下 条 件 限制 : 



































Xj; 宇 0 (i1=1,2,.",s) 


> zx;=1 
因此 ， 混 料 问 题 的 试验 区 域 是 
$—iz|lr;20 (G—1,2,,);Xz,-—1) (3-68) 











的 ， 这 样 的 条 件 限制 决定 了 在 混 料 设计 中 不 能 采用 一 般 的 :元 4 次 完全 多 项 式 回归 模型 ， 否 
则 会 引起 设计 信息 和 矩阵 退化 亏 秩 ， 因 此 ， 混 料 设计 中 常 采 用 Scheffe 典型 多 项 式 回 归 模 型 。 
例如 一 般 的 三 元 二 次 回归 模型 为 











由 于 有 了 之 z; 王 1 的 限制 ， TE s 个 混 料 变量 x， (一 1，2，…，35) m. 只 有 5 一 1 个 是 独立 
全 
iu 








3 3 3 
y =PBot XD biz; + D puris; + D pur? (3-69) 
j=1 kj 4 一 1 


而 混 料 回归 设计 中 的 三 分 量 二 次 回归 方程 为 
3 


3 
y 二 Mix; L3 X Butar; (3-70) 
kj 


j=1 
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它 没有 常数 项 和 平方 项 ， 只 有 一 次 项 和 交叉 项 。 这 是 因为 ， 假 定 混 料 回归 设计 中 的 三 分 量 二 
次 回归 方程 为 





出 


3 3 3 
y —fo t 2jBiz, t A hoeri - 2 Basi (3-71) 
j=l k=1 


kSj 


由 X1 ža +z; =1 可 得 











Bo 一 pozl 十 pozs 十 Bozs (3-72) 
xi-—zxQ(l—zx,—x,4)—x,—z425—z423 (3-73a) 
zê =x, (1— xz; —z3)= £3 — T12 — T213 (3-73b) 
元 3 一 工 3 (1 一 元 1 —22)=£3— X13 — TT} (3-73c) 


将 式 (3-72) 与 式 (3-73) RAR (3-71), MÆ 
y =(Bo H1 Bux, (Bo HB2 d- 222 x 5 t Co d- Bs d- 833 23 十 
(B12 — B11 — Bz2) x 4x2 + CBis — Bui — Bas x qx a + Cos — Bos — Bas) xo x3 (3-74) 


这 实际 就 是 Scheffe 典型 多 项 式 回归 模型 [X (3-70) J. 
对 于 s 分量 的 混 料 回归 设计 ， 其 Scheffe 典型 多 项 式 回归 模型 分 别 为 : 
一 次 式 








y= 2i; (3-752) 
j=l 
二 次 式 
y= Bx X burz; (3-75b) 
j=l kSj 
三 次 式 


y= DDES 本 D Burar; + DY azizr; (二 一 到 和 和 5 BAiZAZiZi (3-750) 
j-l kSj 


kSj xxi 





当 使 用 单纯 形 格子 点 设计 时 ， 这 些 典 型 的 Scheffe 多 项 式 回 归 模 型 中 回归 系数 的 最 小 二 
乘 估计 的 计算 将 变 得 很 简单 。 

在 此 值得 提出 的 是 ， 在 s 维 试验 空间 中 ，s 因子 的 混 料 区 域外 可 用 Gl) 维 单纯 形 来 
表示 。 单 纯 形 上 的 点 ， 如 其 ;个 坐标 中 有 1 个 坐标 为 1， 其 余 (s 一 1) 个 坐标 为 0， 则 这 样 
的 点 称 为 单纯 形 顶 点 。 因 此 ,在 ; 因素 的 混 料 模型 中 ,单纯 形 的 顶点 有 s 个 ， 下面 以 s—3 
为 例 来 讨论 单纯 形 上 点 的 坐标 问题 。 

当 s 二 3 时 ， 其 单纯 形 为 平面 zl 十 zs* 十 zs 一 1 上 的 一 个 等 边 三 角形 [参见 图 3-13 
(a) ]， 它 的 顶点 为 A(1，0，0) 、B(0，1，0) 、C(0，0，1) 。 在 zi 二 zs 十 zi 一 1 的 条 件 限 
制 下 ， 各 分 量 zx; (i 二 1，2，3) 只 能 在 三 角形 ABC 上 取 值 。 为 了 方便 ， 在 使 用 时 不 再 画 出 3 
个 坐标 轴 ， 只 画 出 一 个 等 边 三 角形 就 可 以 了 [参见 图 3-13 (b) ]。 该 三 角形 中 的 任 一 点 下 
到 三 边 的 距离 之 和 为 1， 即 












































FA'+FB'+FC'=1 (3-76) 
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这 样 ， 就 可 以 把 FA 的 长 度 看 成 是 下 点 的 zi 坐标 值 ， 把 FB 和 FC 的 长 度 分 别 看 成 是 下 点 
的 zx， 和 zs 坐标 值 ， 于 是 便 建立 了 “二 维 正 规 单纯 形 坐 标 系 ”， 即 单纯 形 上 的 点 与 有 序数 
Gri» r2. £3) 之 间 建 立 了 一 一 对 应 关系 ， 并 且 x. z2, cra 满足 混 料 条 件 。 

四 因素 混 料 设计 的 单纯 形 是 一 个 四 面体 [参见 图 4-13 CO) ]， 它 的 四 个 顶点 分 别 为 
AG, 0, 0, 0. BO, 1, 0.00. C(0, 0, 1 0),D(0, 0,0. 1), 与 ;二 3 时 类 似 ， 可 
FH zis x2. xa cma 分 别 表示 该 单纯 形 内 的 点 到 BCD Wi. ACD mi. ABD WK ABC 面 的 
距离 ， 这 样 就 建立 了 “三 维 正 规 单纯 形 坐 标 系 ”。 


用 类 似 的 方法 ， 可 建立 s 个 因素 空间 的 混 料 设计 的 正规 单纯 形 坐 标 系 。 


















































Xx 4(1,0,0,0) 
A(1,0,0) 





B(0,1,0, 0) C(0,0,0,1) 





C(0,0,1) 
C(0,0,1 
B(0,1,0) B' (0,0,1) 
C(0,0,1,0) 


(8) (b) (c) 
混 料 试验 区 域 


一 、 单 纯 形 格子 点 





对 由 式 3-71) 表示 的 模型 ，Scheffe 提出 了 单纯 形 格子 设计 方法 ， 这 种 设计 方法 可 以 
保证 设计 点 分 布 均匀 ， 且 回归 系数 的 计算 变 得 简单 。 下 面 移 介绍 格子 点 的 概念 和 计算 公式 。 








前 已 述 及 ， 当 ;二 3 时 ， my 为 1 的 等 边 三 角形 ， 它 的 三 个 顶点 的 全 体 称 
为 一 阶 格子 点 集 ， 记 为 {3, 1) [参见 图 3-14 (a) ]. 








单纯 形 格子 设计 点 分 布 


等 边 三 角形 的 三 边 各 二 等 分 ， 则 此 三 角形 的 三 个 顶点 与 三 条 边 的 中 点 [参见 图 3-14 
(b) ] 记 为 {3，2)， 其 中 共有 6 个 点 ， 各 点 坐标 参见 表 3-36。 
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EXEED) 单纯 形 格子 (3,2} 各 点 坐标 
E 坐标 X1 X2 X3 Eg 坐标 X1 X2 X3 
m m 和 
1 1 0 0 4 1/2 1/2 0 
2 0 1 0 5 1/2 0 1/2 
3 0 0 1 6 0 1/2 1/2 


























将 等 边 三 角形 的 三 边 三 等 分 ， 对 应 的 分 点 连 成 与 边 平 行 的 直线 [参见 图 3-14 (oO ]. 
在 等 边 三 角形 上 形成 许多 格子 ， 这 些 格子 的 顶点 的 全 体 称 为 三 阶 格子 点 集 ， 记 为 (3, 3) 








其 中 有 10 个 点 ， 各 点 坐标 示 于 表 3-37。 


单纯 形 格子 {3,3} 各 点 坐标 





|^ 木下 I 人 木下 
点 号 坐标 X1 X2 X3 点 号 坐标 X1 X2 X3 
1 1 0 0 6 2/3 0 1/3 
2 0 1 0 7 1/3 0 2/3 
3 0 0 1 8 0 2/3 1/3 
4 2/3 1/3 0 9 0 1/3 2/3 
5 1/3 2/3 0 10 1/3 1/3 1/3 














将 等 边 三 角形 各 边 d 等 分 ， 类 似 地 可 得 d 阶 格子 点 集 ， 记 为 (3. d). BA., 将 三 角形 











Hoa odis 


; 如 图 3-14 dD, (OX CD 所 示 。 4， | 中 有 10 Pis aue 
表 3-38, 格子 点 集 (4. 3) 中 有 20 个 点 ， 各 点 坐标 见 表 3-39, 


单纯 形 格子 {4,2} 各 点 坐标 





点 号 坐标 X1 X2 X3 X4 re 坐标 X1 X2 X3 X4 
1 1 0 0 0 6 1/2 0 1/2 0 
2 0 1 0 0 7 1/2 0 0 1/2 
3 0 0 1 0 8 0 1/2 1/2 0 
4 0 0 0 1 9 0 1/2 0 1/2 
5 1/2 1/2 0 0 10 0 0 1/2 1/2 














将 上 述 作法 推广 ， 可 作出 其 他 的 格子 点 集 ， 格 子 点 集 一 般 地 可 表示 为 (s. d). HP s 
表示 单纯 形 顶 点 的 个 数 ，d 表示 将 单纯 形 的 边 长 等 分 的 份 数 。 

下 面 介绍 (s 一 1) 维 正 规 单纯 形 (有 ;个 顶点 ) d METAR (s. d) 中 各 格子 点 的 正 
规 单纯 形 坐 标的 一 般 算法 ， 取 s 个 互相 正 交 的 单位 矢量 


1: eL 0. 0, Tet S 0) 
a2: (0, ls Oso 0) 
as: (0, 0, 0, e, 1) 
则 这 s 个 单位 矢量 作为 项 点 围 成 一 个 正规 单纯 形 ， 此 单纯 形 上 的 任 一 点 x 都 可 以 表示 为 
X=iladl 十 i2q? 十 … 十 isas (3-77) 
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式 中 
(aget. p big R5 (3-78) 
Hiis dg. t d. 都 取 分 母 是 4 的 分 数 时 ， 即 

i1=g1/d ,is—as/d ,*,i,7—a,/d 





oa 人 20G 王 1,2，…,s) 
ai Faz +e ta, =d 
MA (3-78) 所 确定 的 总 体 就 是 (s 一 1) 维 正规 单纯 形 的 d 阶 格子 点 集 {s ,dg} ， 也 就 是 说 


Qi z0G-— Ls 2.7.8) 
(s.d —l(ai/disas/dssa,/d) | ~ (3-79) 
> EE 7 ENTE REE 





即 由 式 (3-790 所 确定 的 点 集 实际 有 Chaa TA, MAARA AIE h ssd} 中 各 点 的 单 
纯 形 坐标 系 的 坐标 。 下 面 以 ;二 4 的 情况 为 例 ， 算 出 {4,2)，{4,3) 各 点 的 坐标 。 

(OD s—4, qd 二 2， 即 4 维 2 阶 格 子 点 集 {4,2} 单纯 形 坐标 系 的 坐标 算法 

IERT, A d=2, a; (i 二 1,2,…,s) 的 取 值 情况 只 有 两 种 ， 即 1 或 2。 

(D 当 某 个 a; 取 2 时， 其 余 的 aj (j= 二 1,2,3,4,j 关 让 都 得 为 0， 则 此 时 有 Cl 二 4 个 点 ; 

© 当 某 两 个 a; 取 1 时， 其 余 的 都 得 为 0， 则 此 时 有 C4 二 6 个 点 。 

由 此 算得 的 4 维 2 阶 格子 点 集 {4,2)，10 个 单纯 形 坐 标 系 的 坐标 如 表 3-36 所 示 。 

(2) s—4, qd 二 3， 即 4 维 3 阶 格 子 点 集 {4,3) 单纯 形 坐 标 系 的 坐标 算法 

此 时 ， 因 d= 二 3, a;G=1, 2, =, s) 的 取 值 情况 有 三 种 ， 即 1、2 或 3。 

(D 当 某 个 a; 取 3 时 ， 其 余 的 oj (j 二 1，2，3，4,j 关 i) 都 得 为 0， 则 此 时 有 Ci = 
4 个 点 ; 

Q 当 某 个 a; 取 2， 另 一 个 取 1 时， 其 余 的 a; 都 得 为 0， 则 此 时 有 204512 个 点 ; 

Q 当 某 三 个 a; 取 1 时 ， 剩 余 的 为 0， 则 此 时 有 Ci 二 4 个 点 。 






























































由 此 算得 的 4 维 3 阶 格子 点 集 {4,3) 的 20 个 单纯 形 坐 标 系 的 坐标 如 表 3-39 所 示 。 
ESKEKRB) ERT, 各 点 坐标 

点 号 坐标 X1 X23 X3 X4 点 号 坐标 X1 X23 X3 X4 
1 1 0 0 0 1 0 2/3 1/3 0 
2 0 1 0 0 12 0 1/3 2/3 0 
3 0 0 1 0 3 0 2/3 0 1/3 
4 0 0 0 1 14 0 1/3 0 2/3 
5 2/3 1/3 0 0 5 0 0 2/3 1/3 
6 1/3 2/3 0 0 6 0 0 1/3 2/3 
7 2/3 0 1/3 0 7 1/3 1/3 1/3 0 
8 1/3 0 2/3 0 8 1/3 1/3 0 1/3 
9 2/3 0 0 1/3 9 1/3 0 1/3 1/3 
10 1/3 0 0 2/3 20 0 1/3 1/3 1/3 














二 、 单 纯 形 格子 设计 法 
RA s 分 量 系统 ， 各 分 量 x; (i 二 1， y Sy s) 的 变化 范围 满足 约束 条 err =l, MK 
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用 4 阶 典型 的 Scheffe 多 项 式 回 归 模 型 时 ， 试 验 点 选 为 (s.d) 的 Cata ETA, XIE 
好 与 所 采用 的 d 阶 典 型 的 Scheffe 多 项 式 回 归 方 程 中 等 估计 的 回归 系数 的 个 数 相 等 ， 故 单纯 
形 格子 设计 是 饱和 设计 ， 是 在 “试验 次 数 最 少 ”意义 下 的 最 优 设计 。 

稼 用 的 单纯 形 格子 设计 的 试验 点 数 及 相应 的 典型 的 Scheffe 多 项 式 回 归 方 程 阶 数 d 之 间 
的 关系 如 表 3-40 所 示 。 




















单纯 形 格 子 设 计 的 试验 点 数 














d 回归 方程 阶 数 d 回归 方程 阶 数 
nem Da 
E 2 3 4 Taur p 3 4 
3 6 10 15 6 21 56 126 
4 10 20 35 8 36 120 330 
5 15 35 70 10 55 220 715 



































前 面 说 过 ， 对 于 典型 的 Scheffe 多 项 式 回 归 模 型 ， 当 采用 单纯 形 格子 点 设计 时 ， 回 归 系 
数 的 最 小 二 乘 估计 将 变 得 很 简单 ， 这 时 ， 每 个 回归 系数 的 值 只 取决 于 按 一 定 规 律 对 应 的 一 些 
格子 点 上 的 观察 值 ， 而 与 其 他 设计 点 上 的 观察 值 无 关 ， 各 回归 系数 都 可 以 表示 成 相应 设计 点 
上 观察 值 的 简单 线性 组 合 。 下 面 以 上 分 量 混 料 设计 的 二 阶 多 项 式 回 归 方 程 为 例 ， 说 明 怎 样 从 
试验 结果 计算 各 回归 系数 。 

二 阶 多 项 式 回归 方程 典型 Scheffe 形式 为 









































y 一 Pizl 十 pz 十 Bazs 十 pzlz2 十 Pi37Z173 rir. (3-80) 
与 此 相应 ， 单 纯 形 格子 设计 及 试验 结果 见 表 3-41. 


单纯 形 格子 (3,2} 设 计 及 试验 结果 

















试验 点 X1 X2 X3 试验 结果 试验 点 Xl X2 Xa 试验 结果 
1 1 0 0 yı 4 1/2 1/2 0 Fiz 
2 0 1 0 Y» 5 /2 0 1/2 yi 
3 0 0 1 Ys 6 0 1/2 1/2 Y23 
为 表述 清晰 起 见 ， 各 试验 点 的 观察 值 以 相应 的 下 标 来 表示 ， 例 如 : 


Ni x; 为 1 而 其 余 分 量 丝 为 0 的 格子 点 的 观察 值 ; 
yi 一 一 Xi 为 1/2，zj 为 1/2， 其 余 分 量 丝 为 0 的 格子 点 的 观察 值 ; 
Yaj 2:24 2/3. x; 289 13. ARDE EN 0 的 格子 点 的 观察 值 ; 



































yiij 一 一 Xi 为 3/4, Xj 为 1/4, 其 余 分 量 皆 为 0 的 格子 点 的 观察 值 ; 等 等 。 
对 于 式 (3-80) 表示 的 回归 模型 ， 可 容易 看 出 ， 
Pi=y1 


pi 一 4y1 一 2(y1 十 y?) 
写成 一 般 式 ， 有 
Bi —yi 
By =S4yj —2Cyictyj) G<j;i j=1,2,3) 


对 于 一 般 * 分 量 模型 ， 与 二 阶 单纯 形 格子 设计 相应 的 典型 Scheffe 多 项 式 回归 方程 的 系 
数 公式 为 
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qk 


| ?os 分 析 化 学 


Bi —yi 
Bg—4yg—2097 9:2. G<Kj;i j — 1230432 
类 似 地 ，* 分 量 三 阶 单纯 形 格子 设计 相应 的 典型 Scheffe 多 项 式 回 归 方 程 的 系数 公式 为 
Bi —yi 
Bi 54/9W i; Ty Tyi Ty) QGEgng-—b2: 





Ya EH C ius T 3yj; Tyi tyj) 





Beji —273y ig —2T/ACy ij Hyg Tygr yar Tys y m2 -9/26yi- yj Tyr) 


Qj <Sk;isj sk =1,2,* ,Ss) 


三 、 单 纯 形 重心 设计 


在 单纯 形 格子 设计 中 ， 当 所 采用 的 回归 模型 的 阶 数 大 于 2 时 ， 在 某 些 混 料 中 ， 各 分 量 是 
以 不 相等 的 比例 出 现 的 。 能 和 否 对 单纯 形 格子 设计 进行 改进 ， 只 考虑 各 成 分 有 等 比例 成 分 的 试 
Jo? 55b. 单纯 形 格子 设计 虽然 是 饱和 设计 ， 但 试验 次 数 仍然 很 多 (CT vi) 。 这 样 ， 要 求 
对 Scheffe 典型 多 项 式 回归 模型 进行 改造 ， 改 变 为 对 各 分 量 来 说 都 是 对 称 的 。 于 是 ， 提 出 了 
单纯 形 重心 设计 。 

在 单纯 形 重心 设计 中 采用 的 回归 模型 为 : 

一 次 重心 多 项 式 























y= Dbz; (3-81a) 
j=1 

二 次 重心 多 项 式 

y= pix; d- gx ds; (3-81b) 
j=l kSj 

三 次 重心 多 项 式 

了 一 2. T X Buriz; = 5 Bj px X; (3-81c) 
j=l kSj bei 


由 上 述 重心 多 项 式 回归 方程 的 形式 可 以 看 出 ， 一 阶 、 二 阶 重 心 多 项 式 回归 方程 与 一 阶 、 
二 阶 Scheffe 典型 多 项 式 回 归 方 程 是 相同 的 。 当 阶 数 大 于 2 时 ， 前 者 较 后 者 减少 了 一 些 乘 积 
项 ， 男 外 ， 对 于 s 分量 混 料 系统 ， 重 心 多 项 式 回 归 方 程 的 阶 数 最 高 为 *。 

在 单纯 形 重 心 设 计 中 ， 试 验 点 的 选取 方法 是 取 单 纯 形 顶点 及 它们 的 一 些 重 心 点 ， 如 : 

单纯 形 的 ;个 顶点 (1,0,0,…,0),…,(0,0,…,1), 共 有 Cl 个 点 。 

两 个 顶点 的 重心 点 : (1/2,1/2,0,…,0),…,(0,0,…,1/2,1/2) ,共有 C2 个 点 。 

三 个 顶点 的 重心 点 : (1/3,1/3,1/3,0,…,0),(1/3,1/3,0,1/3,…,0),*…,(0,0,.…,1/3，, 











1/3,1/3) ,共有 CG 个 点 。 
(s 一 1) 个 顶点 的 重心 点 : [1/Gs 一 1),1/Gs 一 1),1/Gs 一 1),*…,1/(s 一 1),0],…,[0,1/ 
(G—1,1/G-—1D,41/GDi1/G—D]Ld3t4c'-cT^À. 


5 个 顶点 的 重心 点 : (1/s ,1/s,1/s ,*** 1/82, 共有 C =1 Ae 


对 * 王 3， 其 单纯 形 重心 设计 共有 7 个 点 ， 见 表 3-42 及 图 3-15 。 


三 分 量 三 阶 单纯 形 重心 设计 
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试验 点 X; X2 *3 试验 结果 
1 1 0 0 yi 
2 0 1 0 2 
3 0 0 il ds 
4 1/2 1/2 0 Fiz 
5 1/2 0 1/2 Yis 
6 0 1/2 1/2 Y23 
7 1/3 1/3 1/3 Yazs 
QD x71 
o © 
xj-1 © xs=1 


单纯 形 重心 设计 示意 图 


对 s 二 4， 其 单纯 形 重心 设计 共有 15 个 点 ， 见 表 3-43， 类 似 地 可 以 写 出 二 4 的 各 阶 单 
纯 形 重心 设计 方案 。 
容易 看 出 ， 对 ; 因子 混 料 设计 系统 ， 前 面 所 说 的 单纯 形 顶 点 及 顶点 的 各 种 重心 点 总 数 为 





HRH s 阶 重心 多 项 式 回 归 模 型 时 ， 应 取 这 全 部 20 —1 个 点 作为 试验 点 。 显 然 ， 单纯 形 台 
设计 方案 的 试验 点 数 等 于 相应 的 ; 阶 重 心 多 项 式 回归 方程 中 待 估 系数 的 个 数 ， 故 单纯 形 重 ， 














CHEC 


C3 


$ 





FeO-E-I 





(3-82) 


Din 


iU 








[^ 
[^ 


设计 也 是 饱和 设计 。 一 、 二 阶 单纯 形 格 子 设计 与 一 、 二 阶 单纯 形 重 心 设 计 相 同 ， 当 以 二 2 





时 ， 对 于 同 阶 多 项 式 回 归 模 型 来 说 ， 单 纯 形 重心 设计 的 试验 点 数 要 少 于 单纯 形 格子 设计 的 试 




















验 点 数 ， 且 4 越 大 其 差 越 大 。 
四 分 量 四 阶 单纯 形 重 心 设计 
试验 点 Xi X3 X3 DU. 响应 值 | 试验 点 X4 X3 Eos X4 响应 值 

1 1 0 0 0 "m 9 0 1/2 0 1/2 3 
2 0 1 0 0 55 10 0 0 /2 1/2 y 
3 0 0 1 0 Ys 11 1/3 1/3 /3 0 Ya 
4 0 0 0 1 Ya 12 1/3 1/3 0 1/3 Y4 
5 1/2 1/2 0 yı 13 1/3 0 /3 1/3 yi 
6 1/2 0 1/2 0 y2 14 0 1/3 /3 1/3 y2 
7 1/2 0 0 1/2 ya 15 1/4 1/4 1/4 1/4 VE 
8 0 1/2 1/2 0 y4 
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对 混 料 设计 ， 也 可 以 考虑 D- 最 优 性 问题 








可 以 证 明 , 一 阶 、 二 阶 单纯 形 格 子 设计 及 三 
阶 单纯 形 重心 设计 是 D- 最 优 的 ， 而 三 阶 单纯 形 格子 设计 不 是 D- 最 优 的 。 
三 分 量 三 阶 重 心 多 项 式 回归 方程 


3 


y — MB sp DREF 十 Bi23Z17Z273 


i-l 











(3-83) 
i<j 
其 系数 计算 公式 为 
Bi —yi 
Bj-—4yj—2( ty G<j;i j =1,2,3) 

Bizs =27y123 — 12 Cy ag Fyi Hya) H3O ys +y) 
一 般 地 对 于 分量 混 料 系统 ， 采 用 s 阶 单纯 形 重 心 试 验 设 计 方 案 时 ， 相 应 的 d 阶 重心 多 项 式 
回归 方程 各 回归 系数 按 下 式 计 算 : 

Bp. -—2 (— Dimiy(D,) (=1,2,.,s) (3-84) 

Xm D, s 个 成 分 中 某 7 个 的 集合 ; 


y: CD,20—— MX s 个 成 分 中 取 z 个 的 全 部 CC 个 组 合 的 试验 值 的 总 和 。 
例如 ,s 二 4,4d —4 时 ,四 阶 重心 多 项 式 回 归 方 程 为 


4 
J= Mix, 十 
i=l 


i<j<k 
当 采 用 四 阶 单纯 形 重心 设计 方案 时 ， 上 式 中 各 回归 系数 计算 如 下 : 
今 7= 二 1]， 则 + 二 1， 从 式 (3-84) 得 


Xpozz] + 5 Bigz i£ jx y H BizsaX 4 aX 334 
ixlj 


Bi-1LC—-D1 711171; ]—y; (i=1,2,3,4) 
令 r 二 2， 则 1 二 1、2， 从 式 (3-84) 得 


Bi 一 2L( 一 1)2 X2? lyj-cFC—-D?^! X12 (yi 十 yj) 
—A4yij —2Cyi d yj) Ci j =1,2,3,4;i1 <j) 


&r=3, W|z—1., 2, 3, MI (3-84) 得 


Boje SILI SX T y FESD TEA y y Ya 
FESAI y Ey Fy] 


—2Tyis —1l2Cyi Fyi Fyr) t3 Cy: 





Fy; Fyk) 
Gjak =1,2,3,4;i <j <k) 


4 r—4, Mj :=1, 2, 3. 4, AÑ (8-84) 得 


Bi234 7 4L C— D 471 X 4*1 yigg 3 C1) * 3 X35 1 Cy ia H yiz Hyi 十 y234) 
TO-0D*47? X2*7! (yi EF yas Fyi yos Fyza Fyz) HC 1*7! 





X1* !Cyi-E yz ys t ya] 
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E: 











—256 y 1234 — 108 Cy i23 E y i24 Fyi - y2342 32 Cy i2 Fyi y iio yz Fyz Hys) 





ACyi +yz d- yat ya2] 
以 上 论 及 的 混 料 设计 方法 只 能 说 是 最 基本 的 设计 方法 ， 实际 上 ， 前 面 讨论 的 均匀 设计 也 
可 构造 出 混 料 设计 的 方案 ， 有 兴趣 的 读者 可 参阅 文献 [25]. 


第 八 节 ”化 学 中 常用 优化 方法 


在 化 学 研究 和 分 析 化 学 中 ， 需 经 常 使 用 最 优化 方法 ， 前 述 的 单纯 形 试验 设计 方法 本 吴 就 
是 一 种 最 优化 方法 ， 它 不 但 可 用 于 试验 设计 ， 还 可 用 于 计算 寻 优 ， 即 用 于 多 元 校正 、 多 元 分 
辨 、 模 式 识别 、 化 学 专家 系统 及 化 学 动力 学 参数 辨识 等 领域 ,可 看 成 是 一 种 通用 的 数学 工 
有 具 [236~?3] 。 所 以 ,在 此 对 化 学 中 常用 的 优化 方法 作 简要 的 专门 介绍 。 


一 、 最 优化 研究 中 的 基本 概念 


最 优化 问题 有 着 非常 悠久 的 研究 历史 。 在 17 世纪 ，Fermat 就 得 到 了 无 约束 问题 Cun- 
constrained optimization〉 的 最 优 性 条 件 。1788 年 ，Lagrange 将 无 约束 问题 推广 到 含有 等 式 
约束 (equality constrained problem, ECP) 的 情况 ， 并 得 到 其 最 优 性 条 件 ， 建 立 了 著名 的 
拉 格 朗 日 乘 子 (Lagrange multiplier) 方法 。1939 年 ，Karush 在 他 的 硕士 论文 中 得 出 了 不 
等 式 约束 问题 (inequality constrained problem. ICP) 的 最 优 性 条 件 ， 但 是 并 没有 得 到 关 
注 。 很 有 趣 的 是 ，Kuhn 和 Tucker 在 1951 年 的 一 次 关于 数理 统计 和 概率 的 会 议 中 独立 地 公 
开发 表 了 不 等 式 约 束 问题 的 最 优 性 条 件 ， 人 们 将 其 称 为 Kuhn-Tucker 条 件 。 后 来 人 们 发 现 
Karush 已 经 在 1939 年 得 到 了 同样 的 结论 ， 便 将 其 改称 为 Karush-Kuhn-Tucker 条 件 ， 简 称 
KKT 条件 。 到 1968 年 ，Hestenes 和 Powell 提出 了 增 广 拉 格 天 日 函数 (augmented Lagran 
gian functions) 和 相应 的 乘 子 法 (methods of maultipliers) ， 使 得 拉 格 朗 日 乘 子 法 得 到 了 根 
本 性 的 发 展 ， 大 大 促进 了 优化 理论 和 实践 应 用 的 发 展 。 

在 最 优化 理论 的 发 展 历史 中 ， 还 有 一 项 非常 重要 的 发 现 ， 那 就 是 对 偶 理 论 。1928 年 美 
籍 匈 牙 利 数 学 家 汉 “。 诺 伊 曼 (John von Neumann) 在 研究 对 策 论 时 已 发 现 线性 规划 与 对 策 
论 之 间 存 在 着 密切 的 联系 ， 他 发 现 两 人 零 和 对 策 可 表达 成 线性 规划 的 原始 问题 和 对 偶 问 题 。 
在 1947 ^E, 15 - 详 伊 曼 提 出 了 著名 的 对 偶 理 论 。 此 后 ， 对 偶 理 论 得 到 了 迅速 广泛 的 应 用 。 
例如 ， 人 们 建立 了 线性 规划 和 二 次 规划 的 对 偶 问 题 ， 使 得 一 些 在 原始 问题 空间 很 难 解决 的 问 
题 在 对 偶 空间 变 得 非常 的 简单 。 笔 者 认为 ， 对 侦 理 论 是 一 项 很 奇妙 的 发 现 ， 就 像 核 函数 的 引 
进 避 人 免 了 维 数 灾难 一 样 。 复 杂 的 问题 与 简单 的 解法 ,形成 了 鲜明 的 对 比 。 

最 优化 理论 和 方法 主要 用 于 统计 决策 、 公 共管 理 、 经 济 管理 以 及 国防 领域 ， 在 化 学 领域 
的 应 用 似乎 很 少 ， 其 实 不 然 。 化 学 计量 学 涉及 到 非常 多 的 最 优化 问题 和 方法 。 比 如 ， 著 名 的 
最 小 二 乘法 (ordinary least squares，OLS)， 本 质 上 是 求解 一 个 最 优化 问题 最 小 化 误差 
残 差 平方 和 ; 大 家 所 熟知 的 主 成 分 分 析 (principal component analysis，PCA)， 本 质 上 是 在 
求解 最 大 化 潜 变 量 (latent variable, LV) 的 方差 .可 用 拉 格 朗 日 乘 子 法 求解 ;， 偏 最 小 二 乘 
法 (partial least squares，PLS)， 其 目的 在 于 求解 最 大 化 自 变 量 空间 的 潜 变 量 和 因 变 量 空间 
的 潜 变 量 的 协 方差 ， 可 以 用 拉 格 朗 日 乘 子 法 求解 。 总 而 言 之 ， 最 优化 问题 和 方法 与 化 学 计量 
学 息息相关 。 下 面 ， 首 先 对 最 优化 问题 和 方法 作 初 步 的 介绍 ， 然 后 重点 介绍 最 速 下 降 法 和 拉 
格 朗 日 乘 子 法 ， 最 后 再 给 出 常见 优化 问题 (线性 规划 和 凸 二 次 规划 ) 的 MATLAB 实现 ， 以 
使 读者 能 够 对 最 优化 方法 有 一 个 基本 的 了 解 并 能 够 利用 已 有 的 计算 工具 ， 如 MATLAB fI R 
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语言 ， 解 决 实际 问题 。 在 介绍 化 学 中 常用 优化 方法 之 前 ， 我 们 先 讨论 有 关 最 优化 研究 的 一 些 
基本 概念 。 





1. PER IT e 
凸 集 和 凸 函数 是 最 优化 研究 中 最 重要 的 概念 。 凸 集 的 数学 定义 如 下 : 
HE: 设 点 集 DCR"”， 若 对 于 任意 点 x，yED 及 实数 a€ [0，1]， 下 式 


ax + (l—a)y ED 


成 立 ， 则 称 集合 D 为 凸 集 。 直 观 地 讲 ， 若 某 个 点 集中 任意 两 点 的 连 线 上 的 所 有 点 都 处 于 这 
个 集合 中 ,那么 这 个 集合 是 凸 集 。 图 3-16 (a)、(c) 给 出 了 两 种 类 型 的 凸 集 。 由 于 圆 形 和 
三 角形 中 任意 两 点 A MB 的 连 线 均 仍 处 在 圆 形 和 三 角形 内 部 〈 包 括 边界 ) ， 所 以 圆 形 和 三 角 
形 为 凸 集 。 反 之 ， 若 只 要 存在 两 点 A 和 B， 其 连 线 上 的 至 少 一 个 点 不 属于 集合 D， 则 称 D 
Xm. E 3-16 (b)、(d) 给 出 了 一 月 牙 形 凸 集 和 一 “ 凹 ” 字 形 凹 集 。 


Ş XA 


(c) (d) 
Hz B yea D f 
GO 圆 形 凸 集 ，(b) 月 牙 形 凹 集 ; (CO) 三 角形 凸 集 ; (d “m FMR 
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OŽU: 设 函 数 f(x ) 定义 在 凸 集 D 上 上， 者 对 于 任意 xY，yED， 且 x 和 天》， 及 任意 的 w 
flax 4- (0 —a2y) xaf G2) -- (1— a0 f Cy) 
Wi f BR c a PR. HUS. AARP SE c qn Bg d. DU BRUN D PUE PS. E 3-17 给 出 
TERK Cao MARK% (bo 的 例子 。 很 明显 ， 由 凸 /四 函数 的 定义 可 知 ， 线 性 函数 既是 凸 
PR Zt Jc [UI PLC 

















À A 
x S 
bes bes 
= 
0 x O 


X 
(a) (b) 
c A Ep E p. 
(a) 凸 函数 ;(b) MpK% 


2. 无 约束 优化 与 约束 优化 
记 f(x) 是 定义 在 n 维 欧 氏 空间 尺 * 上 的 实 函 数 ， 那 么 ， 所 谓 无 约束 优化 〈 极 值 ) 问题 ， 
是 在 全 空间 R” ERRAZ f Ox 的 最 小 值 〈 或 最 大 值 ) BI 


min f (x) 
x€R»" 
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而 所 谓 约束 优化 〈 极 值 ) 问题 ， 是 求解 

min f (x) 

x€ En 
HB.E"—Íx|g;(x)z0.i1—1. 2, 3, =, m) CR", g;(x) xCOG =1, 2, 3, =, m) 
为 该 问题 的 约束 条 件 。 

3. 全 局 最 优 解 与 局 部 最 优 解 

对 于 点 x* ER”, MERER f(x*) 达 f(x) 对 所 有 的 xER" 都 成 立 ， 则 称 点 x* 为 最 
优化 问题 的 全 局 最 优 解 。 

如 果 存 在 x* 的 某 个 邻 域 V(x* ) ， 如 果 不 等 式 focos f(x) 对 所 有 的 x € V(x*) 
都 成 立 ， 则 称 点 x^ 为 最 优化 问题 的 局 部 最 优 解 。 如 图 3-18 所 示 ， 在 可 行 解 域 中 ， 区 间 
[a. b] N, A 点 为 全 局 最 优 解 ， 在 此 处 函数 取得 全 局 最 小 值 。B 和 C 两 点 均 为 局 部 最 优 
解 ， 使 函数 在 局 部 可 行 域内 取得 最 小 值 。 
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局 部 最 小 值 C 
A 局 部 最 小 什 
全 局 最 小 值 
可 行 解 域 
Oo a x b 


可 行 解 域 、 局 部 最 优 值 和 全 局 最 优 值 


4. 函数 的 梯度 及 二 阶 导数 矩阵 

函数 f(x) 在 给 定点 的 梯度 是 一 向 量 ， 它 的 大 小 就 是 函数 在 该 点 的 方向 导数 的 最 大 值 ， 
它 的 方向 垂直 于 函数 过 该 点 的 等 值 面 ， 且 指向 函数 增 大 的 方向 。 一 般 说 来 ， 其 梯度 向 量 可 表 
示 为 : 
































Vf(x) —-[9f (x)/8x,. Of(x)/8x5. c. of (x)/Ox,] (3-85) 
HE SCBOB Hg X 
9 f(x) 9 f) " 9 f(x) 


azlgzl azlazry” 


9 f) If) If) 
V? f(x)— Izz I r I£ Izz 





9 ES 9 X 





9 T2 9 Xa 


9 f(x) If) |  93f(x) 


9 $ 
Lp I£ IT,a I£? 











9 Tn 9 Tn 


二 阶 导数 矩阵 叉 称 Hessian 矩阵 〈 海 森 和 矩阵 )， 是 (nn Xn) 对 称 和 矩阵 。 它 的 正定 性 是 判 
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定 函 数 是 否 具 








有 同性 的 充 要 条 件 。 如 函数 是 凸 的 ， 则 其 最 优 解 一 定 是 全 
数 (x) 二 Xi 十 X32 十 xz] H 





"LÁ. DU. PR 


za 在 点 [LAT ERU [8,37 Mon | a 
s. AÈ I BL C E I o RAR 
在 优化 问题 求解 中 ， 常 


须 用 到 迭代 方法 。 和 迭代 方法 直接 从 分 析 目 标 函 数 f(x) 的 特征 入 
手 ， 构 造 一 类 逐次 使 目标 函数 值 下 降 的 搜索 。 因 一 般 在 化 学 研究 中 使 用 的 优化 方法 多 由 和 迭代 
法 构成 ， 对 这 类 方法 的 基本 思路 的 掌握 将 对 理解 具体 算法 带 来 很 大 帮助 ， 所 以 ， 将 对 此 也 作 
出 简要 介绍 。 

















这 类 方法 一 般 由 以 下 四 个 步骤 组 成 ， 





CD 选择 初始 近似 点 x' (自然 是 越 靠 近 最 优点 越 好 ) 。 














C 如 已 算出 第 k 次 近似 点 x ， 但 x 人 还 不 是 在 要 求 的 误差 范围 内 的 最 优 解 ， 此 时 可 
选择 一 个 搜索 方向 8 ， 使 沿 gs 方向 目标 函数 值 下 降 〈 设 最 优 是 最 小 )， 即 应 是 fo 
的 下 降 方 向 。 


© ns xU n. i 





iH 方向 作 射 线 ， 在 此 射线 上 ， 定 出 步 长 \， 使 所 得 的 点 
XCRT1) — y) As ®© 

满足 fixe» < fix) 

在 多 数 算法 中 ,入 的 选取 应 使 ACxz ) FEREZ., HIM xCO RR, W sU FR Ffa) 的 极 








小 值 ， 这 是 单 变量 4 的 函数 极 小 化 问题 ， 称 为 一 维 搜索 ， 其 表达 式 为 
Fao ) = FC Ags ) = JF As (€?) 
À 

















(3-86) 
CD 验证 所 得 新 点 x%1+ 了 是否 达到 要 求 的 精度 。 Ce 为 很 小 的 正 数 )， 即 
[x0 一 xb | Ke 


或 满足 其 他 类 型 的 终止 标准 。 硅 满足 ，x%1? 就 可 以 作为 最 优点 否则， 以 x%* 作为 新 的 
初始 点 ， 转 外 继续 进行 搜索 。 











由 上 述 计算 过 程 可 以 看 出 ， 在 这 样 的 迭代 算法 中 ,搜索 方 向 s%? 和 步 长 因子 从 构成 每 
一 次 迭代 的 修正 量 ， 它 们 是 决定 算法 好 坏 的 最 重要 因素 。 
6. 3t38 7 K 








在 局 部 优化 算法 的 概念 起 着 重要 的 作用 时 ， HE EEBUR RUBER. A C98 77 1] 7918 
索 方向 而 形成 的 。 
设 A 为 一 个 OX n) 对 称 正定 矩阵 ，p 、q 为 两 个 2 EAE, A 


p'Aq —0 


H ， 


如 果 A 为 一 个 单位 矩阵 ， 则 p. q 两 向 量 正 交 。 
对 于 正定 二 次 n WRZ, Wma 





则 称 p. q 为 两 个 共 轿 癌 量 























依次 沿 2 个 相互 共 斩 的 方向 进行 一 维 搜索 ， 则 最 后 得 到 
的 就 是 它 的 最 优点 。 如 果 一 个 算法 的 搜索 方向 是 互相 共 罗 的 ， 则 称 为 共 斩 方 向 法 ， 以 后 讨论 
的 共 力 梯度 法 、DFP AE EIIE A. 


二 、 局 部 优化 算法 





本 节 讨 论 的 方法 都 是 局 部 最 优化 方法 ， 所 得 的 最 优 解 只 是 局 部 最 优 解 。 局 部 最 优化 方法 
如 按 是 否 需 要 对 目标 函数 求 导 来 分 ， 可 分 成 两 类 : 一 类 需要 对 目标 函数 f(x) 进行 求 导 运 
算 ， 这 样 的 方法 包括 梯度 法 、 了 4 
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的 解析 性 质 ， 它 们 的 收敛 速度 多 数 比 不 用 求 导 的 优化 方法 (直接 法 ) 要 快 ; 男 一 类 则 无 须 求 
导 ， 常 称 直 接 法 ， 它 们 包括 上 节 讨 论 的 单纯 形 法 及 本 节 将 讨论 的 坐标 轮换 法 和 Powell 方法 。 
下 面 将 分 别 对 这 两 类 局 部 优化 算法 进行 简要 介绍 。 
(一 ) 梯度 法 
【基本 思路 】 
梯度 法 (或 称 最 速 下 降 法 ) 是 求解 优化 问题 的 一 种 最 古老 、 最 基本 的 算法 。 其 主要 思路 
是 取 函 数 的 负 梯 度 方向 (最 速 下 降 方向 ) 作为 迭代 的 搜索 方向 ， 即 
s ——wWf(x?) 
至 于 步 长 的 选取 ， 可 以 有 不 同 的 方法 ,一 种 方法 是 任意 取 一 个 XA， 使 
f[x 9? —A4 Vf (x 9 ) ]JX f (x 9) (3-87) 


成 立 。 男 一 种 方法 是 沿 负 梯度 方向 找 函 数 的 一 维 极 小 点 ,求解 一 维 极 小 化 (一 维 搜索 ) 问 
题 ， 即 求 




















flx —A, Vf Gc? ) ]2 minf (x ^* P) —A Vf x?) (3-88) 
À 





一 般 采 用 后 一 种 方法 。 这 种 寻 优 方法 的 基本 寻 优 思路 可 由 图 3-19 表示 。 


"d 





【基本 算法 】 

CD 选择 初始 近似 点 xO KAIKAWE e, Sk 千 0。 

O 计算 Vf (x ) 。 

QE Vf» se, R lx **?P —x9 | xe; WII. x CO 即 为 所 求解 ,否则 
进行 由 。 
D 进行 一 维 搜索 ， 即 求 

Pw Ne VY Ce) sti Le 0 VAC WD] 


O 4 f(x ^^ ) minf x? ) CA, Vf), ES kkt, O, 
(二 ) 牛顿 法 
【基本 思路 】 

牛顿 法 也 是 求解 优化 问题 的 一 种 最 古老 、 最 基本 的 算法 。 这 种 算法 虽然 已 应 用 不 多 ,但 
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它 是 应 用 较 多 的 变 尺度 法 的 基础 。 其 主要 思路 是 对 梯度 法 的 搜索 方向 进行 改进 ， 即 加 进 目 标 
函数 的 二 阶 导数 矩阵 的 信息 ， 以 加 快 收敛 速度 ， 


sO — —[V? f (x9 )]-1V f (x) (3-89) 
由 此 可 得 牛顿 法 的 迭代 公式 为 
pU [vifo iy ety Feet. (3-90) 


对 于 二 次 型 目标 函数 ， 用 牛顿 法 只 须 迭 代 一 次 就 可 得 到 最 优点 。 

值得 指出 的 是 ， 对 于 非 二 次 函数 ， 由 于 它们 在 极 小 点 附近 和 二 次 函数 很 接近 ， 使 用 牛顿 
法 ， 其 收敛 速度 也 是 很 快 的 。 但 是 牛顿 法 要 求 初始 点 选 得 比较 好 ， 如 离 最 优点 较 远 时 ， 就 容 
易 发 生 迭 代 发 散 或 收敛 到 非 最 优点 的 情况 。 为 克服 这 提出 “阻尼 牛顿 法 ”， 实 际 上 ， 
在 牛顿 法 中 步 长 因子 总 是 取 1， 而 在 阻尼 牛顿 法 中 ， 每 一 步 迭 代 都 是 沿 方向 


s — [Vf] a) 
的 一 维 搜索 ， 即 以 迭代 公式 
xGt*D—xO —A,[V? f (x(€? ) ]-1V f(x  ) 
代替 式 (3-900, Hop a, 使 
f x! —A[V* f x? )] 1 Vf Gc?) — minf (ix FD—A[V* f(x (Py 71 vf(x O5) 

















阻尼 牛顿 法 保持 了 牛顿 法 收敛 快 的 特点 ， 而 又 不 要 求 初始 点 很 好 ， 是 有 实用 价值 的 。 但 
阻尼 牛顿 法 每 次 都 要 计算 二 阶 导数 矩阵 的 逆 和 矩阵 ， 当 维 数 较 高 时 ， 工 作 量 较 大 ， 这 是 它 的 缺点 。 

【基本 算法 】 

CD 选择 初始 近似 点 x OO KAIA EZ e, S kE., 

Q HAVF), 

O E Vf» se, xx lx P —x0 || ce;, WEER, xO 即 为 所 求解 ， 和 否则 
进行 @。 

由 HALV aD], FS 

s 一 一 LV2 f (x ) | 一 1 V f (x 0? ) 


O 进行 一 维 搜索 ， 即 求 》x 
f (Ox O? FA s? ) 2 minf Ox? or As?) 
à 




















© & x(*»—xQ(€ —,[V? AGOxzO LIVAG )， 并 令 &< 十 1， 转 @ 。 
(=) RIEA 
【基本 思路 】 
可 以 证 明 ， 对 于 正定 二 次 对 元 函数 ， 如 果 依 次 沿 ? 个 相互 共 斩 的 方向 进行 一 维 搜索 ， 
则 最 后 得 到 的 就 是 它 的 最 优点 [27] 。 所 谓 共 恩 梯度 法 就 是 遵循 这 一 思路 而 设计 的 一 种 优化 方 
法 。 对 于 一 个 正定 二 次 7 元 函数 
f OO —((1/2»x'Ax Fb'x-c (3-91) 























有 
df (x)/dx=Vf(x)=Ax+b (3-92) 
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据 此 ， 可 以 确定 优化 时 搜索 的 共 斩 方 向 。 
首先 任 取 初 始点 x'%” ， 初 始 搜索 方向 为 负 梯 度 方向 ， 即 


sO ——Vf(x() 


然后 从 点 x O 出 发 ， 沿 方向 sO 进行 一 维 搜索 ， 得 


f Gc? Haios O0 ) « minf (x Has ) (3-93) 
à 
并 令 
x (D =x O 十 108 O (3-94a) 
此 时 可 按 下 述 方式 来 构造 一 个 与 go JERER 2] E s CO 
sD ——Vf(x(P)-rvos(? (3-94b) 





xx Jé DS Ej s C? 269g B5) 7r p] s C? nT p 24 B ns B9 fe Ee BE 77 6) [ — V f Gc O ) ] S BEIC TRER 77 I8] s? 
的 线性 组 合 而 构成 ,问题 在 于 如 何 确 定 vi 。 
为 使 s? 与 sO 3E gg , BI TET 9E s(ODtAsg O 一 0, 则 有 








[—Vf (x D) --g,s 9 J As 一 0 (3-95) 
解 方程 (3-95 得 
vi —L[—Vf GP)» ]As(O As AS (3-96) 
又 因为 
Vf (x D) -Ax V +b 
Vf (x 9 ) Ax? +b 
所 以 


Vf (0) —Vf (Ox 0 ) 2A QOO —x (0) —4A9As O [参见 式 (3-94a) | (3-97) 
并 且 因 为 梯度 方向 相互 正 交 (参见 图 3-19 和 图 3-200. ， 有 


Vf) Vf(x(?»)—0 





vi SLS Vf aO EVA vU TN VR VP 
=[> Vf] Vf æ] OLV pev EG TT 
=[~ Vf Vf] AVFO Vf asf a] 
=[Vf Cx M Vf] LVF Evra] 
= | vf&?» 1 */[ Yf) ||? 
同 理 可 得 
v= | Vœ |? Vf) l? 


KFE, WMA MR — RIR R sO, sD, n. SOT, 
XFIRE ZL KEE RZ o ERRI, AAA ERL KIE E PRUBOIE EE 
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具有 良好 的 有 限 步 的 收敛 性 。 
ERMEE ALE Flether-Reeve 共 轿 梯度 法 。 其 基本 思路 示意 图 示 于 图 3-20。 











M 


JE SEES E EHE I LE 


【基本 算法 】 

CD 选择 初始 近似 点 x' 及 判别 收敛 的 正 数 es， 令 &<0。 

D YFRV fax 95, JE SO ——Vf (x95, FB Aus x (O iB. IET In] sO 进行 一 维 
搜索 ， 得 


f 9 Hos ) 5 minf (x O —As 9 ) 
À 


xD =y 一 和 0840) 


© E || Vf x» || Se, 或 xz 一 xD || ces , DU EE IER FA x CO. 即 为 所 求解 ,和 否则 向 
下 进行 由 。 
D HE v —lvfix*»»1I*/l vfia*7051?*,3R8 
s — —[V f (x ? ) ]3-o, 1s 47? 
进行 一 维 搜索 ， 即 求 A4 
f Gc? HAs IP) = minf (x East?) 





(D 邻 x 2xC€-D-rA,s(C , JE bk —1—h, $85, 
《四 ) 变 尺度 法 
【基本 思路 】 

变 尺 度 法 可 看 成 是 梯度 法 和 牛顿 法 的 一 种 拓展 ， 实 因 梯 度 法 和 牛顿 法 的 迭代 公式 可 统一 
地 表示 为 






































XLTD=x HOV fV) (3-98) 


X'B. WRH? 二 IT， 则 为 梯度 法 ; ES HPV =[V fax )] 1 ， 就 得 到 阻尼 牛顿 法 。 
在 此 ，H 为 一 aXn) WERE, 3$ HO Vf) =s, BD HO nT f f eb BE 75 I] E $6 
一 个 角度 ， 所 以 它 又 被 称 为 旋转 和 矩阵。 如 前 所 述 ， 梯 度 法 收敛 太 慢 ; 牛顿 法 要 计算 二 阶 导 数 
和 矩阵 和 和 矩 阵 求 逆 ， 工 作 量 大 。 但 牛顿 法 收敛 快 ， 这 一 点 是 令 人 感 兴趣 的 ， 如 HOO 的 选取 不 
需要 计算 二 阶 导 数 和 矩阵 和 和 抢 阵 求 着 ， 而 又 能 逼近 它 ， 那 么 由 式 (3-98) 确定 的 算法 可 能 收敛 
得 快 。 变 尺度 法 的 基本 思路 就 是 利用 式 (3-98) 作为 迭代 公式 ， 和 矩阵 吾 驴 是 在 迭代 过 程 中 
逐步 产生 的 ， 并 且 它 能 较 好 地 逼近 Fxz) 的 二 阶 导 数 矩 阵 的 逆 和 矩阵。 因 这 类 方法 的 搜索 方向 
是 在 互 尖 度量 意义 下 的 负 梯 度 方向 ， 而 在 计算 过 程 中 ， 百 沪 又 是 不 断 变化 的 ， 故 有 变 尺 度 
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法 之 称 。 
变 尺 度 法 有 多 种 ， 目 前 用 得 较 多 的 是 DFP 法 (由 Davidon-Fletcher-Powell 提出 ) 和 
BFGS iX (Hp Broyden-Fletcher-Goldfarb-Shanno 提出 )。 下 面 主 要 介绍 DFP 法 求 HO? 递 推 
公式 的 基本 思想 。 
对 于 一 个 正定 二 次 寻 元 函数 ，FCxz) 一 (1/2)xtAx 十 Dixz 十 c, 先 取 初 始 旋转 矩阵 HO 为 任 
意 一 个 n 阶 对 称 正定 矩阵 ,例如 五 ?= 了 T, 取 初始 点 x 中 , 令 


s OD — —H? Vf(xQO) 


并 沿 s —HESTUCBI x O ， 和 欲求 对 称 正 定 和 矩阵 HO, np 

















s? =—HO Vf xP 
FE sO 5 sO A FM, Am HO 必须 满足 
s OtAs (OO — —Vf (x D)! HO? As —0 (3-99) 








由 式 (3-99) 可 知 ， 如 能 使 HO AsO =s, ME (3-990 必然 成 立 。 基 于 此 ， 可 构 
ii 五 2 的 递 推 求法 如 下 : 
为 方便 起 见 ， 记 





Ax (DO =y tD — yk) —A,s C0 (3-100) 
Ag P — V f (x € D) — y f(x 9 ) 2A (x6 *D —y GO ) 23 As C? (3-101) 


式 中 ， k=l; VAT mre Do 
w H”? 5 HOARE 





H?-—HO--AHO 
根据 HOO As V =s CO nA, ZR AUS JE ETIE RE AH C? rif E 
AH O? As 一 SG —HO Ag (OD 
考虑 到 式 (3-100) M (3-101)， 可 将 上 式 改 写成 
AH OC As V =AH V Ag V/A =s — HO Ag QO) 


—sO(I—HOA)-—AxO /A, —HO Ag /A 


即 
AH” Ag (D — Ax (OO — HD Ag O (3-102) 
由 此 可 以 设想 AH C 的 一 种 比较 简单 的 形式 为 
AHV —AxO[qO ]t—HO Ago [wO ]t (3-103) 








RP, qO 和 wO? 为 两 个 待定 向 量 。 将 式 (3-103). 代入 式 (3-102). 和 
Ax (GO [qV Ag -HV Ag OO [wP ] Ag O — Ax — HO Ag OO 


也 就 是 说 ， 应 使 





[qa j'Ag( ? —[wO Ag 一 1 (3-104) 
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考虑 到 AH C 应 为 对 称 阵 ， 最 简单 的 办 法 就 是 取 
La? ]=5 q Ax? (3-105) 


wD —& HO Ag” (3-106) 


将 式 (3-1050 和 式 (3-106) 代入 式 3-104), 4 
wi1LAx' ) ]tAg V =£; [HV Ag jiAg' =1 
) Ng J'Ag ‘ £0, 则 有 


车 [Ax Ag 0 以 及 CH 
LAx Jtag Y ) 2 1/(CAg Y JtAx CO ) 


71 —1/( 
El —]/(LHO Ag O ]tAg (OO? ) 








[q(? HV AgC Vw] 


AHV =Ax 
)]Et—HO Ag V [E&H Y Ag O Tt 


=Ax Pa Axt 
— Ax D [Ax O ]/(LAg O T Ax} 


—HO Ag [Ag THO ]/( HO Ag Ag 


—AxOL[AxO ]t/(GAg XO Jt Ax” 》 
-HV AgO[AgO HV /{([Ag V J HO Ag O? ) 








从 而 可 得 
H — HO -E Ax O [Ax OO? | ALAg ]tAx O ] 
-HV AgP[ AgO IE HO /([ Ag? JHOY Ag? 》 


HEHP =H% 二 Ax* [axt J (Ag OO F'Ax Oo) 


-HP Ag CO [ Ag? HO) /([ Ag UO? JH Ag CO 》 


上 述 和 矩 阵 称 为 尺度 矩阵 ， 在 整个 迭代 过 程 中 它 是 在 不 断 变化 的 。 


【基本 算法 】 
CD 选择 初始 近似 点 x 中 及 判别 收敛 的 正 数 e， 令 & 寺 0。 
Q d | Vf Gc?) [| Se; xx x 6D —x | Ke, MEER, xO 即 为 所 求解 ， 否则 


进行 @。 
Q AHV El, hc], 
D 4 s0O——HOVvf(x(?), 


© 进行 一 维 搜索 ， 即 求 A 
f GO Has ) =minf (x? As?) 
À 








© dc E) =D dE eU. 
Q b | V&D) || «iei xm |x xV l| ses, MIEZ, x ^P BIB. 


f, 4 k=n 时 , $xO—xCtD, RO; M ken], $ 
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Ax (C) =y tD — yk) 
Ag 0C? —Vf (xe FD )—Vf (x?) 
计算 
HEV =H Hax [Ax (OO Jt Lag ]tAx COO) 
—H? Ag [Ag HO /Ag THE Ag (0) 


Q 令 &< 十 1， 转 四 。 
CH) 坐标 轮换 法 

















上 述 介绍 的 方法 都 需 对 目标 函数 进行 求 导 运算 ， 如 当 目 标 函 数 的 解析 表达 式 十 分 复杂 或 
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写 不 出 其 具体 表达 式 的 导数 形式 时 ， 就 无 法 使 用 上 述 方法 。 此 时 就 可 使 用 本 节 及 下 一 节 将 介 














绍 的 方法 或 以 前 介绍 的 单纯 形 法 来 进行 寻 优 。 
【基本 思路 】 








对 于 维 实 数 空间 的 目标 函数 f(x) ， 本 法 的 基本 思路 是 依次 沿 其 个 坐标 轴 方 向 进行 


一 维 寻 优 ， 经 多 次 循环 迭代 后 以 达到 最 优 解 。 
dx n 维 坐 标 轴 方 向 (坐标 轴 的 单位 向 量 ) 为 
eO —[1,0,0. 7,0]! 
eO —[0,1,0,-,0]! 
eO —[0,0,1. 7,0]! 


e"? —[0,0,-,1,0] 
e —[0,.0.---.0,1] 
简便 起 见 ， 可 表示 为 
eO = [0.0.*:,1, 7,0]! (G—1.2.3.*,.n) 
【基本 算法 】 
CD 选择 初始 近似 点 x "及 判别 收敛 的 正 数 e， 令 有 二 1。 
© 沿 方向 e'*» 进 行 一 维 搜索 ， 得 


f(x 67D Hare ) S minf (x 67D aet ) 
À 


x =x kD — Ape 
Q 判别 是 否 满足 上 二 n。 若 上 二 n， 则 转 @@; ZR-nHIp. WS < 十 1， 转 @。 
O 检验 是 否 满足 收敛 性 准则 ， 即 


| x x | Ke, 


若 满足 判别 标准 ， 则 停止 迭代 ，x 人 即 为 所 求解 ， 否 则 令 xO =x, k=l, RO, 
此 法 简单 易 懂 ,但 收敛 速度 不 快 。 

(六 ) Powell 法 
【基本 思路 】 























Powell 法 又 称 方向 加 速 法 ， 其 基本 思路 是 逐次 构造 共 斩 方 向 ， 并 以 此 来 加 速 收敛 ， 故 
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有 方向 加 速 法 之 称 。Powell 法 构造 共 斩 方 向 无 须 计 算 目 标 函 数 的 导数 ， 这 是 该 法 的 一 个 显 
车 优点 。 

【基本 算法 】 

首先 依 坐 标 轮换 法 的 思路 ， 对 n TP ECREGE GER rA EE e —[0,0, 7.1.0] G1, 
2,3,…,n) 寻 优 ， 以 得 到 最 优点 的 一 个 初始 近似 点 x，”。 令 二 0。 











@ 令 S 1—1. 
Xx" AG") =S minfa ARP 
à 
并 令 


CR) wk} 7. (k) 
Xi =X] AiS; 


O HIETE i=Sn, Fi=n, MRO; Fi<n 时 ， 则 令 icit, O. 
QD oK A E 


FU? Hanti P =r P] minf i? Ha GP aa] 





x mx? Han aP 一 xD) 
© 计算 
fm fm = max [Lf (xi )—f (x)] 


以 确定 参数 m, 


(D EA 
Agere Lf 2 fo OWEF LO e 
Wu 
sP*D gi G—1,2,-.n) 
OD, qu 
sEtD VOD (i=1,2,.… ,mC—1) 


一 G—m,*,n—1) 


qM esp uie | a | 
RO. 


CD 检验 是 否 满足 收敛 性 准则 ， 
| Sad E Mm MAFIE, x CO 即 为 所 求解 ， 和 否则 





x (D =r H, 


d 


flx (mM ePi 


k—k-cl1 
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OD. 

此 处 讨论 的 算法 是 修改 的 Powell 方 法， 实际 上 ， 修改 的 Powell 方法 也 有 多 种 ， 上 面 介 
绍 的 是 Sargent 修改 方法 。 

在 上 述 讨论 中 ， 多 次 提 到 一 维 寻 优 方法 ， 常 用 的 一 维 寻 优 方法 有 0.618 (黄金 分 割 法 )、 
对 分 法 等 ， 因 考虑 大 都 比较 容易 且 已 为 很 多 化 学 工作 者 所 熟悉 ， 故 此 从 略 。 


三 、 全 局 优化 算法 


在 化 学 研究 的 实践 中 ， 因 所 研究 的 对 象 千变万化 ， 很 多 问题 的 目标 函数 非常 复杂 ， 而 且 
还 有 很 多 问题 根本 就 没有 现存 数学 模型 ， 本 质 上 应 属于 全 局 最 优 问题 ， 如 果 简 单 采用 上 述 方 
法 就 很 难 奏效 。 由 于 工程 数学 和 计算 机 科学 的 飞速 发 展 ， 近 年 来 涌现 了 很 多 有 效 的 全 局 最 优 
新 算法 ， 这 些 算法 的 显著 特点 在 于 它们 大 都 具有 跳出 局 部 最 优 的 机 制 ， 很 快 就 在 化 学 计量 学 
中 得 到 了 广泛 的 应 用 ， 而 且 是 化 学 计量 学 近年 来 研究 的 一 个 热点 。 所 以 ， 下 面 将 对 它们 作出 
专门 的 介绍 。 这 些 新 近 涌 现 的 全 局 优化 方法 中 ， 在 化 学 中 影响 最 大 的 应 数 模拟 自然 机 理 的 模 
拟 退 火 法 [3~3 和 遗传 算法 B35]， 此 外 ， 由 我 国 数学 家 提出 的 基于 数论 的 优化 方法 3537] 
也 将 在 此 作出 介绍 。 

《一 ) 模拟 退火 法 

1982 年 ，Kirkpatric 等 将 退火 思想 引入 组 合 优化 领域 ， 提 出 一 种 解 大 规模 组 合 优化 问题 
的 有 效 近 似 算 法 一 一 模拟 退火 算法 ， 它 源 于 对 固体 退火 过 程 的 模拟 ， 采 用 Metropolis 接受 
准则 ， 并 用 一 组 称 为 冷却 进度 表 的 参数 控制 算法 进程 ， 使 算法 在 多 项 式 时 间 里 给 出 一 个 近似 
全 局 最 优 解 。 可 以 这 么 说 ， 固 体 退 火 过 程 的 物理 和 统计 性 质 是 模拟 退火 算法 的 基础 背景 ; 
Metropolis 接受 准则 使 算法 具有 跳 离 局 部 最 优 的 机 制 ， 而 冷却 进度 表 的 合理 选择 是 算法 成 功 
的 重要 前 提 。 
国体 在 恒定 温度 下 达到 热平衡 的 退火 过 程 的 统计 性 质 可 用 Monte Carlo 方法 进行 模拟 ， 
Monte Carlo 方法 的 特点 是 算法 简单 ， 但 必须 大 量 采 样 才 能 得 到 比较 精确 的 结果 ， 因 而 计 
算 量 很 大 。1953 ^E, Metropolis 等 提出 重要 性 采样 法 ， 他 们 用 下 述 方法 产生 固体 的 状态 
序列 : 

先 给 定 以 粒子 相对 位 置 表征 的 初始 状态 i， 作 为 固体 的 当前 状态 ,该 状态 的 能 量 是 EF;， 
然后 用 摄 动 装置 使 随机 选取 的 某 个 粒子 的 位 移 随 机 地 产生 一 微小 变化 ， 得 到 一 个 新 状态 j， 
新 状态 的 能 量 是 玉 ; 。 如 果 接 受 准则 EF; 二 EF;， 则 该 新 状态 就 作为 “重要 ”状态 ; WR Ej 二 
EF;， 则 考虑 到 热 运 动 的 影响 ,该 新 状态 是 否 为 “重要 ”状态 ， 就 要 依据 固体 处 于 该 状态 的 
概率 来 判断 。 在 热力 学 的 知识 可 知 ， 固 体 处 于 状态 i 和 j 的 概率 的 比值 等 于 相应 Boltzmann 
因子 的 比值 ， 即 























































































































P 一 exp[ CE; — E;)/(kT)] (3-107) 


式 中 , 为 Boltzmann 常数 ; T 为 热力 学 温度 。 此 概率 为 一 个 小 于 1 的 正 实数 。 用 随机 
数 发 生 器 产生 一 个 [0,1) 区 间 的 随机 数 上 5E， 若 己 ><， 则 新 状态 7 可 作为 重要 状态 ， 否则 
RE, 

若 新 状态 7 是 重要 状态 ， 就 以 ) 取代 i 成 为 当前 状态 ， 和 否则 仍 以 ; 为 当前 状态 ， 再 重复 
以 上 新 状态 的 产生 过 程 。 在 大 量 迁 移 后 ， 系 统 趋 于 能 量 较 低 的 平衡 状态 ， 固 体 状 态 的 概率 分 
布 趋 于 Gibbs 正则 分 布 。 

从 以 上 讨论 可 知 ， 高 温 下 可 接受 与 当前 状态 能 差 较 大 的 新 状态 为 重要 状态 ， 而 在 低温 下 
只 能 接受 与 当前 状态 能 差 较 小 的 新 状态 为 重要 状态 ， 这 与 不 同 温度 下 热 运 动 的 影响 完全 一 
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致 。 在 热力 学 温度 趋 于 零 时 ， 就 不 能 接受 任 一 已 >E HIRET. 

上 述 接受 新 状态 的 准则 称 为 Metropolis 准则 ， 相 应 的 算法 称 为 Metropolis 算法 ， 这 种 
算法 的 计算 量 将 显著 减少 。 

设 一 个 优化 问题 的 一 个 解 i 及 其 目标 函数 AGO. 分 别 与 一 个 微观 状态 ; 及 其 能 量 已 ,等 价 ， 
令 随 算法 进程 递减 其 值 的 控制 参数 ， 担当 固体 退火 过 程 的 热力 学 温度 工 的 角色 ， 则 对 于 控 
制 参数 + 的 每 一 取 值 ， 算 法 持续 进行 “产生 新 解 一 判断 一 接受 /舍弃 ”的 迭代 过 程 就 对 应 着 
固体 在 某 一 恒定 温度 下 趋 于 热平衡 的 过 程 ， 也 就 是 执行 了 一 次 Metropolis 算法 。 与 Metropolis 
算法 从 某 一 初始 状态 出 发 ， 通 过 计算 机 的 时 间 演化 过 程 ， 求 出 系统 最 终 达 到 的 状态 相似 ， 模 
拟 退 火 算法 从 某 个 初始 解 出 发 ， 经 过 大 量 解 的 变换 后 ， 可 以 求 得 给 定 控制 参数 值 时 优化 问题 
的 相对 最 优 解 ， 然 后 减 小 控制 参数 + 的 值 ， 重 复 执行 Metropolis 算法 ， 就 可 以 在 控制 参数 
趋 于 零 时 ， 最 终 求 得 优化 问题 的 整体 最 优 解 。 由 于 固体 退火 必须 “ 缓 缓 ”降温 才能 使 固体 在 
每 一 温度 下 都 达到 平衡 状态 ， 最 终 趋 于 能 量 最 小 的 基态 ， 控 制 参数 的 值 也 必须 缓慢 衰减 ， 才 
能 确保 模拟 退火 算法 最 终 趋 于 优化 问题 的 整体 最 优 解 。 

模拟 退火 算法 用 Metropolis 算法 产生 优化 问题 解 的 序列 ， 并 由 与 Metropolis 准则 对 应 
的 转移 概率 P 










































































| 当 (2) 三 f(j) 时 

,ot py pO STS joe 
确定 是 否 接受 从 当前 解 ; 到 新 解 7 的 转移 ， 式 G-108 中 的 上 为 控制 参数 。 开 始 可 让 上 取 较 
大 的 值 〈 与 固体 的 熔 解 温度 相对 应 )， 在 进行 足够 多 的 转移 后 ， 缓 慢 减 小 z 的 值 〈 与 缓 缓 降 
温 相 对 应 )， 如 此 重复 ， 直 至 满足 某 个 停止 准则 时 算法 终止 。 因 此 ， 模拟 退 火 算 法 可 视 为 递 
减 控制 参数 时 Metropolis 算法 的 迭代 。 可 以 证 明 ， 当 寻 优 遵循 此 退火 过 程 来 进行 ， 只 要 在 
过 程 的 控制 参数 满足 一 定 条 件 时 ， 描 述 为 有 限 非 齐 次 马尔 科 夫 链 的 模拟 退火 算法 ,将 收敛 于 
整体 最 优 解 [38.39]。 

在 介绍 模拟 退火 算法 之 前 ， 有 必要 先 介绍 一 下 邻 域 结构 与 局 部 搜索 的 概念 。 

(OD 邻 域 结构 “对 于 属于 解 空 间 S 的 每 一 个 解 ;， 有 一 个 解 的 集合 S;，S;cS， 这 些 解 
在 某 种 意义 上 是 “邻近 ”i 的 ， 集 合 S; 称 为 i 的 邻 域 ， 每 个 JE S; 称 为 i 的 一 个 邻近 解 。 

(2) 局 部 搜索 算法 ”局 部 搜索 算法 是 从 一 个 初始 解 i ES 开始 ， 然 后 运用 一 个 解 产 生 
右 ， 持 续 地 在 解 i( 称 为 当前 解 ， 的 邻 域 S; 中 搜索 比 i 更 优 的 解 ， 若 找到 比 i 更 优 的 解 ， 就 
用 这 个 解 取 代 i， 成 为 当前 解 ， 再 对 当前 解 的 邻 域 进行 搜索 ;否则 ,终止 局 部 搜索 。 

【基本 算法 】 

设 存 在 邻 域 结构 和 可 能 解 产 生 器 ， 再 设 i 表示 Metropolis 算法 第 & UCET fat mil Cr 
WE, Le RIR Metropolis 算法 第 & 次 迭代 时 产生 的 变换 个 数 ， 则 模拟 退火 算法 可 由 下 列 步 
又 中 一 加 组 成 。 

CD 初始 化 : 设 定 初始 解 io。、 初 始 控制 参数 i 及 初始 变换 个 数 Lo。 

Q k=0, 

从 1 到 L， 产 生 可 能 解 集 j G51, 2, 7 Li. 

D ln fO) <fr), W irj vp. 


PG, -—expl(— Lf Gi — f G4 ]/t,) 
























































产生 [0,1) 的 随机 数 。 
如 果 PG >r, MEF 六 解 ， 用 于 下 一 步 搜索 。 
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© k=k+1. 

© 确定 下 一 步 的 L;， 产 生 可 能 解 集 j G51, 2, c Li. 

CD 确定 下 一 步 的 控制 参数 t 。 

© 如 果 所 得 的 当前 解 已 满足 某 一 终止 标准 ， 则 停止 计算 ,否则 转 @。 

值得 提出 的 是 ， 上 述 算法 只 是 一 个 算法 的 基本 步骤， 其 中 每 一 步骤 的 具体 确定 与 所 需 解 
决 的 具体 问题 密切 相关 ， 对 于 不 同 的 问题 ， 控 制 参数 ti; 和 用 于 邻 域 搜索 的 可 能 解 集 的 大 小 
Li 都 会 不 同 。 这 一 点 是 模拟 退火 算法 不 同 于 经 典 优化 算法 的 重要 标志 ， 同 时 也 给 模拟 退火 
算法 留 下 了 广阔 发 挥 的 天 地 。 总 的 说 来 ， 一 系列 的 控制 参数 六 的 确定 对 模拟 退火 算法 是 至 
关 重 要 的 ， 在 模拟 退火 算法 中 ， 它 有 一 个 特殊 的 名 称 ， 称 为 冷却 进度 表 。 一 般 说 来 ， 较 好 毕 
冷却 进度 表 将 得 到 较 好 的 结果 。 这 是 因为 ， 模 拟 退火 算法 的 跳出 局 部 最 优 的 机 制 就 完全 是 由 
Mrteopolis 的 按 概率 接受 新 状态 的 准则 提供 机 会 的 。 

CO 遗传 算法 

遗传 算法 [4 最早 由 Holland 于 20 世纪 60 年 代 创 建 ， 经 过 不 断 发 展 ， 近 年 来 逐渐 引起 
化 学 计量 学 家 们 的 重视 ， 被 广泛 用 于 解决 化 学 上 的 难题 。 遗 传 算法 是 一 种 用 计算 机 模拟 生物 
自然 进化 过 程 来 搜索 最 优 解 的 方法 。 它 是 受 达 尔 文 进化 论 的 启发 而 产生 的 。 自 然 界 生物 体 通 
过 自身 的 演化 就 能 很 好 地 适应 环境 ， 使 问题 得 到 完美 的 解决 ， 这 种 才能 让 最 好 的 计算 机 也 相 
形 见 纳 。 大 多 数 生物 是 通过 自然 选择 和 有 性 生殖 这 两 种 基本 过 程 进行 演化 的 。 自 然 选择 决定 
了 群体 中 哪些 个 体能 够 存活 并 繁殖 ;有 性 生殖 保证 了 后 代 基 因 中 的 混合 和 重组 ， 比 起 单 性 生 
殖 的 简单 基因 拷贝 产生 的 后 代 ， 有 性 生殖 后 代 的 进化 快 得 多 。 自 然 选择 的 原则 是 适应 者 生 
存 ， 不 适应 者 淘汰 。 具 体 地 说 ， 遗 传 算法 是 通过 类 比 上 述 过 程 而 产生 的 一 种 概率 搜索 算法 ， 
它 是 利用 某 种 编码 技术 作用 于 称 为 染色 体 的 数 串 ， 其 基本 思路 是 模拟 由 这 些 数 串 组 成 的 群体 
的 进化 过 程 。 遗 传 算法 通过 有 组 织 地 、 随 机 地 交换 信息 来 重新 结合 那些 适应 性 好 的 串 ， 在 每 
一 代 中 ,利用 上 一 代 串 结构 中 适应 性 好 的 位 和 上 段 来 生成 一 个 新 的 串 的 群体 ; 此外， 偶尔 也 要 
在 串 结构 中 尝试 用 新 的 位 和 有 段 来 蔡 代 原来 的 部 分 。 遗 传 算法 是 一 类 随机 算法 ,但 它 不 是 简单 
随机 走动 ， 它 可 以 有 效 地 利用 已 有 信息 来 搜寻 有 希望 改善 解 质 量 的 串 。 类 似 于 自然 进化 ， 遗 
传 算法 通过 作用 于 染色 体 上 的 基因 ， 寻 找 好 的 染色 体 来 求解 问题 ; 与 自然 界 相似 ， 遗 传 算法 
对 求解 问题 的 本 身 一 无 所 知 ， 它 所 需要 的 仅 是 对 算法 产生 的 每 个 染色 体 进 行 评价 ， 并 基于 适 
应 值 来 选择 染色 体 ， 使 适应 性 好 的 染色 体 比 适应 性 差 的 染色 体 有 更 多 的 繁殖 机 会 。 

遗传 算法 利用 简单 的 编码 技术 和 繁殖 机 制 来 表现 复杂 的 现象 ， 从 而 解决 非常 困难 的 问 
题 。 特 别 是 由 于 它 不 受 搜索 空间 的 限制 性 假设 的 约束 ， 不 必要 求 诸如 连续 性 、 导 数 存 在 和 单 
条 等 假设 以 及 其 固有 的 并 行 性 ， 使 它 在 化 学 中 的 应 用 前 景 正如 Lucasius 和 Kateman! 所 说 
的 ， 具有 相当 大 的 潜力 。 

遗传 算法 的 过 程 可 概括 为 五 个 基本 步骤 : 中 按 设 定 的 规模 产生 第 一 代 群 体 。 和 群体 中 每 条 
染色 体 的 长 度 由 所 需 优 化 的 参数 的 个 数 决定 。@@ 评 价 染色 体 的 适应 性 。 通 过 一 定 的 方式 将 每 
条 染色 体 中 的 参数 值 代 和 人 所 求 目 标 函 数 中 ， 求 出 对 应 函数 值 。 轧 将 目标 函数 值 转换 ， 从 而 得 
出 染色 体 的 适应 性 优 劣 。 昌 有 选择 地 交 双 染色体。 每 次 随机 地 从 母 代 染色 体 中 选 出 两 条 染色 
体 ， 随 机 地 交换 它们 某 些 对 应 位 置 上 的 数 段 ， 从 而 产生 下 一 代 新 的 个 体 。 在 选 母 代 染 色 体 的 
过 程 中 ， 每 条 染色 体 被 选中 的 概率 与 其 适应 性 成 正比 。 加 变异 。 按 一 定 概 率 随机 地 对 染色 体 
上 的 基因 进行 变异 ， 由 此 可 以 产生 一 些 新 的 个 体 。 整 个 算法 在 第 包 步 和 第 四 步 之 间 循 环 。 

值得 指出 的 是 ， 与 前 述 的 模拟 退火 算法 类 似 ， 遗 传 算法 的 方法 本 身 只 能 提供 一 个 框架 ， 
在 解决 问题 时 ， 需 密切 依赖 于 它 自身 以 外 的 过 程 ， 即 必须 与 具体 的 问题 结合 在 一 起 ， 经 过 精 
心 设计 ， 对 应 用 到 的 特殊 问题 中 的 特定 域 的 表示 和 专门 知识 加 以 充分 利用 。 目 前 ， 通 过 一 些 
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化 学 计量 学 家 的 开拓 性 工作 ， 遗 传 算法 已 开始 被 构造 用 于 解决 各 种 化 学 上 的 优化 问题 。Lu 
casius 和 KatemanL4 用 遗传 算法 进行 波长 点 的 选择 。 在 同时 测定 四 种 RNA 中 的 核 苷 酸 时 ， 
由 于 它们 的 光谱 相似 ， 需 对 测定 波长 进行 优化 选择 。 文 献 [41] 用 光谱 条 件数 作为 优化 目标 
函数 ， 用 0、1 编码 的 染色 体 表 示 波 长 点 的 选择 方案 ， 在 36 个 波长 点 中 找 出 6 个 最 佳 点 。 
Fontaint“ 引 则 将 遗传 算法 用 于 寻找 有 机 物 同 分 异 构 体 ， 将 各 个 原子 的 标号 编码 为 染色 体 ， 优 
化 的 目标 函数 为 最 小 化 学 距离 ， 化 学 距离 值 最 小 的 结构 即 为 最 可 能 的 同 分 异 构 体 。 计 算 结 果 
与 实际 化 学 反应 产物 一 致 。 另 外 ，Hibbertl4] 用 遗传 算法 计算 化 学 动力 学 参数 ;Leardi 
等 [用 遗传 算法 进行 特征 选择 ; Brown 等 $4] 将 此 算法 用 于 有 机 化 合 物 分 子 结构 的 比较 和 
检索 ; Lucasius 等 (1 用 此 算法 进行 聚 类 分 析 ; 国内 李 通 化 、 从 培 威 等 5 就 数值 遗传 算法 进 
行 了 有 益 探讨 。 以 上 方法 在 染色 体 的 编码 表示 、 目 标 函 数 的 构造 、 交 义 、 变 异 的 操作 及 限制 
条 件 等 各 个 方面 都 大 不 相同 ， 但 所 有 的 作者 都 力图 找到 最 适合 于 解决 该 具体 问题 的 方法 。 由 
于 在 化 学 领域 引入 遗传 算法 的 时 间 尚 短 ， 目 前 仍 有 许多 工作 需要 做 。 

【基本 算法 】 

如 前 所 述 ， 遗 传 算法 通过 模拟 自然 界 生 物 “遗传 六 变异 习 适 者 生存 ”的 进化 过 程 ， 对 优 
化 空间 进行 随机 搜索 ， 从 而 得 到 全 局 最 优 解 。 数 值 遗 传 算法 是 将 待 优化 的 各 个 参数 排列 在 一 
起 ， 当 作 一 条 染色 体 ， 每 个 参数 即 为 染色 体 中 的 遗传 基因 。 根 据 染色 体 对 环境 的 适应 性 〈 即 
其 目标 函数 值 的 一 个 转换 指标 )， 通 过 各 种 遗传 操作 控制 其 索 殖 人 情况， 淘汰 差 的 ， 保 留 好 的 ， 
最 终 得 到 最 好 的 染色 体 ， 亦 即 全 局 最 优点 。 

算法 可 用 五 个 步骤 描述 如 下 : 

CD 个 体 初始 化 ”用 待 优化 的 指标 组 成 染色 体 ， 如 zi1x，…z,-17,， 第 一 代 个 体 由 20 
条 染色 体 组 成 ， 染 色 体 中 各 参数 值 可 在 各 自 的 约束 区 间 内 任 取 : 


















































r;-—lmitG)r 


RP, x4; 条 染色 体 中 第 i 个 参数 ;limit(i) 为 它 的 约束 范围 ;vr 为 [0,1) 之 间 均 匀 
分 布 的 随机 数 。 

(2) 求 目 标 函 数值 ”将 每 条 染色 体 中 的 参数 取 值 代入 目标 函数 f(x) 中 ， 求 出 对 应 函数 
值 ， 若 有 两 条 或 多 条 完全 相同 的 染色 体 ， 保 留 一 条 不 变 ， 其 余 重 新 赋值 。 

(3) 将 目标 函数 转换 为 适应 性 ”染色体 优 劣 需 通过 适应 性 来 评价 。 适 应 性 由 目标 函数 值 
求 得 。 设 为 求 极 小 化 问题 ， 故 使 目标 函数 值 越 小 的 染色 体 适应 性 越 大 ， 因 此 需 进 行 函数 值 f 
与 适应 性 (fitness) 之 间 的 转换 。 取 目标 函数 的 倒数 f =1/fitness. 

(4) 选择 性 地 交叉 染色 体 ”新 一 代 的 20 条 染色 体 通 过 对 母 代 染色 体 进 行 “ 选 择 一 交叉 ” 
而 产生 。 在 这 个 操作 中 ， 每 次 随机 选择 两 条 母 代 染色 体 ， 在 它们 中 间 随 机 地 寻找 一 个 切割 
点 ， 交 换 其 对 应 参数 取 值 ， 得 子 代 染色 体 ， 其 过 程 如 图 3-21 所 示 。 操 作 的 总 次 数 由 参数 
Pmat 决 定 。 每 条 染色 体 被 选中 的 概率 与 其 适应 性 成 正比 ， 这 样 好 的 基因 就 能 有 更 大 的 概率 通 
过 交叉 保留 至 下 一 代 。 本 文 决定 概率 的 方法 为 















































P(i)=fitness(i)/sum(fitness) 





AP, PO) 为 第 i 条 染色 体 被 选中 的 概率 ; fitnessa) 为 其 适应 性 ; sum(fitness) 为 整 代 
染色 体 适 应 性 之 和 。 有 时 个 别 染 色 体 会 因 适 应 性 太 大 而 过 度 繁殖 ， 导 致 随后 的 搜索 总 在 此 染 
色 体 决定 的 参数 附近 进行 。 为 保持 参数 点 在 搜索 空间 的 分 散 性 ， 可 定 一 个 参数 8， 当 PG) 
8 时 , 令 PG)=p8。 















































第 三 化 学 试验 设计 与 优化 方法 
€; | € | 65 |c4 | 染色 体 1 al | a， | a la| 染色体 2 
切断 处 切断 处 








交叉 


ad icd [a [e [a fe] 


KA) 染色 体 交 叉 示 意图 
































(5) 变异 先 按 一 定 的 概率 Pus 确定 总 共 需 要 变异 的 基因 数 ， 然 后 随机 地 确定 对 哪些 基 
行 变异 。 变 异 方式 有 两 种 ,一 种 是 


gene(Cnew) 王 gene(old) 士 7 
即 在 原 有 基因 上 加 减 一 个 [0,1) 之 间 的 随机 数 。 另 一 种 是 
geneCnew) 一 gene(old)(1 士 r/100) 


即 在 原 有 的 点 附近 以 较 小 步 长 进行 搜索 。 

整个 算法 在 第 (20 步 与 第 (5) 步 之 间 循 环 ， 直 至 目标 函数 收敛 。 

在 遗传 算法 中 ， 变 异 方式 影响 目标 函数 下 降 的 速度 ， 单 用 一 种 变异 方式 目标 函数 下 降 很 
慢 ， 用 两 种 方式 可 以 明显 地 加 速 。 两 种 方式 选用 的 次 数 也 很 重要 。 可 采取 一 种 有 针对 性 的 方 
法 : 先 用 大 的 步 长 进行 变异 ， 当 这 种 变异 不 再 起 作用 时 〈 即 通过 Q 代 繁 殖 ， 目 标 函 数 不 下 
KE». ， 暂 时 保留 这 20 条 染色 体 ， 在 后 来 的 繁殖 中 选用 第 二 种 缩小 了 步 长 的 变异 方法 ， 而 当 第 
二 种 方式 不 起 作用 时 ( 即 经 过 W 代 繁 殖 ， 目标 函数 不 再 下 降 )， 再 分 别 将 两 种 变异 产生 的 
40 条 染色 体 进行 比较 ， 从 中 选 出 好 的 20 条 ， 最 后 用 第 一 种 方式 进行 变异 ， 如 此 重复 。 在 这 
里 ， 第 一 种 变异 方式 可 以 加 快 搜索 速度 ， 而 第 二 种 变异 方式 可 以 在 参数 附近 进行 更 仔细 的 搜 
R. QUHLW 均 取 3 时 ,目标 函数 下 降 较 快 。 

遗传 算法 参数 的 选择 需 根据 问题 而 定 ， 从 原理 上 说 ， 只 要 变异 和 交叉 的 概率 大 于 0， 经 
过 足够 多 的 繁殖 代数 ， 算 法 最 终 总 能 收敛 到 全 局 最 优 ， 但 参数 的 具体 取 值 会 影响 收敛 的 速 
度 。 在 一 般 的 遗传 算法 问题 中 〈 如 求 最 佳 波长 点 、 确 定 分 子 结构 等 )， 交 叉 的 概率 较 大 ， 一 
般 为 90%% 左 右 ， 变 异 的 概率 较 小 ， 仅 为 1 多 一 2%。 但 在 数值 遗传 算法 中 ， 由 于 染色 体 交 叉 
只 能 导致 不 同 数值 的 重新 组 合 ， 不 能 产生 新 基因 ， 而 需要 对 优化 空间 进行 广泛 的 搜索 ， 故 须 
对 基因 进行 强烈 变异 ， 经 过 比较 发 现 ， 变 异 的 概率 Pn 小 于 0.5 时 ,算法 收敛 较 慢 。 最 终 确 
定 变异 的 概率 Pu 第 一 种 取 0.5， 第 二 种 取 0.8， 交 叉 的 概率 Pnat 取 0.5。 

在 遗传 算法 求 极 小 化 问题 中 ， 将 目标 函数 转化 成 适应 性 这 一 步 尚未 受到 重视 。 实 际 上 选 
择 适 当 的 方法 能 够 提高 寻 优 速度 ， 克 服 优化 平台 。 模 拟 一 个 函数 


z —4/e(/9 +4/e9/ 十 2sin2z 十 2sin2y 十 cos(CzV0.7)/(C1 十 过 )15 












































TF cosCy/0. 7) /C12- y) F5 (3-109) 
0 有 2 二 30 0«y«30 
对 其 采用 两 种 不 同 的 转化 方法 分 别 求 极 小 值 。 一 种 为 
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fitness) ^ [maxCf) — f G) -- minCf) ]/[maxCf) — minCf) ] i 二 1,2,*" ,20 
(3-110) 


maxCf) 为 从 整 代 染 色 体 中 求 出 的 最 大 目标 函数 值 ; min Cf. 为 最 小 目标 函数 值 ; f(i) 为 由 第 
i 条 染色 体 求 得 的 目标 函数 值 。 
另 一 种 转化 方法 为 
fitness(i) —1/f G) (i=1,2,.…,20) (3-111) 
终止 准则 为 
| minCf£^ ^! ) — minCf^) | «0. 00001 


min(f*11) 为 从 当代 染色 体 中 求 出 的 最 小 目标 函数 值 ，min(f*) 为 从 上 一 代 染 色 体 中 求 出 的 
最 小 目标 函数 值 。 

用 每 种 方法 运算 15 次 ， 运 算 结果 均 与 单纯 形 法 结果 一 致 。 但 对 其 染色 体 总 繁殖 代数 进 
行 假设 检验 ， 发 现 二 者 有 显著 性 差别 。 这 说 明 计 算 达 到 同样 精度 ， 前 者 所 需 循环 次 数 大 于 后 
者 ， 也 就 是 说 后 者 寻 优 速度 快 。 其 原因 是 由 于 该 目标 函数 接近 最 优点 时 有 优化 平台 ， 寻 优 达 
到 此 区 域 时 ， 用 式 (3-1100 的 线性 函数 ， 不 同 染 色 体 之 间 适 应 性 差别 将 很 小 ， 因 此 差 的 染 
色 体 不 能 被 淘汰 ; 而 式 (3-111) 中 目标 函数 与 适应 性 之 间 为 非 线 性 关系 ， 当 目标 函数 值 越 
接近 极 小 值 时 ， 适 应 性 之 间 的 细微 差别 越 大 ， 因 此 不 同 染 色 体 之 间 的 差别 被 放大 ， 寻 优 将 更 
集中 地 在 好 的 染色 体 决 定 的 参数 点 附近 进行 ， 优 化 速度 加 快 。 

(=) 基于 数论 方法 的 序 贯 优化 法 

穷尽 搜索 是 男 一 种 类 型 的 全 局 优化 方法 ， 该 法 遍历 搜索 空间 中 每 一 可 能 解 ， 并 将 最 好 点 
作为 全 局 最 优 解 。 理 论 上 ， 穷 尽 搜索 总 能 找到 全 局 最 优 解 。 但 是 ， 它 的 严重 缺陷 是 其 优化 效 
率 十 分 低 。 然 而 ， 如 果 仅 搜索 空间 中 少量 代表 性 解 而 不 是 每 一 可 能 解 ， 优 化 效率 可 望 改善 。 
数论 方法 (NTM), 或 称 为 伪 蒙 特 卡 洛 法 (quasi Monte-Carlo methods)， 是 将 数论 和 数值 
分 析 相 结合 的 一 种 方法 。 数 论 方法 最 广泛 的 应 用 领域 是 数值 积分 、 插 值 、 积 分 等 式 、 微 分 等 
式 等 的 数值 求解 问题 。 关 于 数论 方法 详细 的 综述 可 以 参见 Korobovi*9'5] Niederreiter-?! 9»! 和 
华罗庚 、 王 元 [的 工作 。 数 论 方法 的 许多 应 用 其 实 可 以 归结 为 一 个 核心 问题 ， 即 如 何 找 到 
数论 网 点 。 方 开 泰 等 人 就 是 用 数论 方法 (NTM) 来 均匀 布点 ， 提 出 了 基于 数论 的 全 局 优化 
算法 ， 并 在 此 基础 上 ，Niederreiter 4692 和 方 开 泰 等 655 提出 了 在 序 贯 收缩 的 搜索 空间 内 均 
匀 布 点 的 基于 数论 方法 的 序 贯 数论 优化 法 (sequential number-theoretic optimization, 
SNTO)557  。 与 其 他 全 局 优化 算法 比 ，SNTO 具有 原理 清晰 明了 、 算 法 易于 实现 等 特点 。 在 
具体 讨论 SNTO 以 前 ， 先 介绍 一 下 有 关 数 论 产生 均匀 布点 的 基本 概念 。 

1. 数论 网 点 (NT-net) 

数论 中 将 在 一 封闭 有 界 的 域 D 中 均匀 分 布 的 点 集 称 为 D 上 的 数论 网 点 (NT-net)。 事 
实 上 ， 数 论 网 点 可 被 定义 为 在 D 上 服从 均匀 分 布 的 代表 点 集 。 方 开 泰 和 王 元 的 书 中 介绍 了 
几 种 在 单位 立方 体 C, 上 产生 NT-net 的 方法 。 其 中 ， 通 过 好 格子 点 (glp W) 产生 的 NT- 
net 易于 计算 。 好 格子 点 是 通过 glp 产生 表 中 的 产生 向 量 来 构造 的 ， 具 体 过 程 如 下 : 

(D 从 gip 产生 表 中 取出 产生 向 量 (n5 hi. ces hs), n 为 点 集中 的 样本 点 数 ， 为 所 
考察 空间 的 维 数 。 

© 产生 glp Æ {z}, k=1, cs n}, x, = [{hik —0.50/n }, (gk —0.5)/n }, c. 
{hask —0.5)/n )], & —1, 1, n, XH. C) ARTE () 中 的 小 数 部 分 。 方 开 泰和 王 元 
的 论著 中 中 给 出 了 一 系列 glp 产生 表 。 以 下 仅 列 出 二 维和 三 维 空间 的 glip 产生 表 CK 3-44 
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与 表 3-45) 供 读者 参考 。 
EEEN 二 维 glp 产生 表 
n 8 13 21 34 55 89 144 233 377 610 987 
hı 1 1 1 1 1 1 1 1 1 1 1 
hz 5 8 13 21 34 55 89 144 233 377 610 
EEEO 三 维 gp R 
n 35 101 135 185 266 418 597 828 1010 1220 1459 
hı 1 1 1 1 1 1 1 1 1 1 1 
hz 11 40 29 26 27 90 63 285 140 319 256 
hs 16 85 A2 64 69 130 169 358 237 510 373 





一 般 的 域 D 上 的 NT-net 可 通过 单位 立方 体 C, 上 的 NT-net iE SE Ho, DUI. P4 D Js 
维 实 数 空间 中 的 长 方 体 域 la, b] 时 ， Ay ,六 二 1,…,n) 是 在 单位 立方 体 Cs 上 的 NT-net, 
对 于 给 定 的 4 一 (al sas), b= Ois 0, yi Oy nest ys» 构造 


rj4-—a;dT;—aj;?)yyg i—l,6s (3-112) 





Wx, — Grp itttemusE—1.rn)uybzetE[a.b)] EJ NT-net, 
2. 基于 NT-net 的 序 贯 优化 算法 (SNTO) 
假设 要 搜寻 满足 下 式 的 x* 
M= f(x* ) = minf (x) (3-113) 








式 中 , Ds 维 实 数 空间 中 的 封闭 有 界 域 ，f/ (x) 是 定义 在 D 上 的 连续 函数 。 基 于 NT- 
net 的 优化 思路 如 下 : 
取 一 在 D 上 的 NT-net, p, — ixr, k51, 0, n}o WEWE FRH x; 


M,—f(x,;)- min f(x) (3-114) 
i ow 


SX 





NP, x) AE, 中 使 f(x) 达 到 最 小 值 的 点 。 由 于 FCxz) 是 连续 函数 且 D 封闭 有 界 ， 容 
DWE H nott, M, 一 M。 然 而 ， 理 论 和 实践 表明 M, 到 M 的 收敛 效率 不 高 。 为 了 改善 
该 法 的 效率 ， 方 开 泰 和 王 元 提出 了 基于 NT-net 的 序 贯 优化 算法 (SNTO)L57 。 

下 面 给 出 的 是 当 D H s 维 实 数 空间 中 的 长 方 体 域 La ,bj 时 的 SNTO 算法 。 

4 a—(ai.7.a,). bib. 以 及 x 二 (zx1,…,X,)，SNTO 的 过 程 如 下 : 

(D 初始 化 。 4 1-0, DO —D, a? =a 以 及 0) =b, 

© 产生 NT-net, H gip 集 产 生 在 也 三 La ,0 EHITAS n AWAR. 

@ 计算 近似 最 优点 。 确 定 满足 下 式 的 YEooU(xz2 Pm MO; 

MD=f(x SFYy),, VyEoN U(x DN} (3-115) 

AP, x‘ 了 ?了 ?是 空 集 ， xO MMO ZEILE BLA IE x * 0M. 的 最 佳 近似 。 

由 AIRE, eO = bP —at) /2。 如 果 maxc(? <8, 6 为 一 预 置 的 较 小 数 ， 则 
可 认为 D 收缩 到 足够 小 ， 终 止 算法 并 接受 x 中 和 MW 。 否 则 ， 执 行 下 一 步 。 

C) 收缩 搜索 域 。 构 造 新 的 搜索 域 DOD =[a D, bD], 





















































a^? —max(x(? —ycí 


T I» (3-116) 
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H 
bD =min(x Eye" ,b;) (3-117) 


AP, y 是 一 预 置 的 收缩 因子 。 令 上 一 上 十 1， 转 到 @) 。 

方 开 泰 等 建议 选取 n >n; =23 王 … 并 使 用 y=0.5。 此 外 ， 虽 然 以 上 算法 是 为 长 方 体 搜 
索 域 中 的 优化 问题 而 设计 的 ， 但 可 很 容易 将 它 推广 至 一 般 的 搜索 域 中 。 图 3-22 大 致 地 示 出 
了 SNTO 法 的 优化 过 程 。 图 中 DW 的 每 一 边 长 是 D4 2 的 每 一 边 长 的 1/2。 然 而 ， 如 果 
x 人 ?是 DD 上 的 边界 点 ， 则 要 求 D 中 落 在 D 内 。 因 此 ， 边 长 有 可 能 收缩 到 小 于 DD 中 边 长 
的 1/2。 注 意 DVTPC DP (1) 并 不 一 定 总 是 成 立 ， WDS CDHD9gpw-, 


























ESEP SNTO 序 贯 搜索 示意 图 





由 于 SNTO 也 如 模拟 退火 和 遗传 算法 一 样 ， 具 有 跳出 局 部 最 优 的 能 力 ， 因 此 它 也 能 搜 
索 到 全 局 最 优 。 有 关 SNTO 法 全 局 最 优 能 力 的 论述 可 参见 Niederreiter 等 [5 和 方 开 泰 等 [58] 
的 工作 。 

值得 指出 的 是 ， 搜 索 空间 中 的 第 一 次 布点 数 对 SNTO 法 的 全 局 优化 效果 来 说 至 关 重 要 。 
推荐 采用 n>n: =n; 一 … 是 十 分 合理 的 ， 这 是 由 于 起 始 搜索 空间 最 大 ， 因 此 ， 起 始 搜索 空 
间 中 的 布点 数 应 较 多 。7m1 决 定 了 一 最 优点 ， 第 二 大 搜索 区 域 正 落 在 该 点 附近 。 可 见 ， 需 仔 
细 选 择 第 一 次 的 布点 数 nas OB AE OE DG. ni 越 大 ， 算 法 收敛 到 全 局 最 优 解 的 可 能 性 就 越 大 ， 
但 对 于 一 个 给 定 的 优化 问题 ,ni 的 值 无 法 事先 给 出 ， 所 需 nj 值 的 大 小 应 由 特定 问题 目标 也 
数 响 应 曲面 的 复杂 程度 来 决定 。 例 如 ， 响 应 曲面 越 了 汗 ， 所 需 ni 就 越 大 。 因 此 ,nn 的 选择 应 
该 能 以 最 少 的 布点 探测 尽 可 能 多 的 全 局 最 优 可 能 域 〈 可 近似 认为 是 单 峰 区 间 )。 我 们 提出 用 
逐步 增加 的 ni1 来 进行 试验 。 如 果 增 加 布点 数 所 得 到 的 最 优点 和 以 前 得 到 的 最 优点 落 在 同一 
单 峰 区 间 ， 则 可 近似 认为 进一步 增加 布点 数 对 优化 结果 改善 不 大 。 优 化 中 的 一 个 经 验 规则 是 
当 两 点 处 于 同一 单 峰 区 间 时 ， 它 们 具有 相近 的 函数 值 且 距离 较 近 。 因 此 ， 这 两 个 指标 可 用 以 
衡量 第 一 次 布点 中 找到 的 最 优点 的 优 度 。 为 此 ， 我 们 提出 了 如 下 选择 的 方法 : 

4 ni (ID) — n4 OO) 二 … ， 其 中 所 有 的 1(i) 均 取 自 gip 集 产 生 表 中 。 

OD 令 i=1。 

O 产生 在 原始 搜索 域 D 上 均匀 分 布 的 含 n1Gi) 点 的 点 集 op, MEWE FRA xO E 
pO MM , 




























































































MO — f(x P )&f (Qo, V y€p? (3-118) 
@ 如 果 i=1, 令 i=i 十 1， 并 转 到 @@;， 和 否则， 计算 V; =| M? 一 MG | 和 Si = 


| x — x G-D | 


CD 如 果 Vi-1 和 S;-1 都 降 至 较 小 ， 则 可 选取 x1(i) Rna G DEA n 否则, m i— 
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;十 1 ， 转 到 人 @) 。 
用 两 个 含有 多 个 局 部 最 优点 和 一 个 全 局 最 优点 的 复杂 数学 函数 ， 即 
1z2 十 2y2? 一 0.3cos(3rz) 一 0. 4cos(4ry) +0. 7 —]&zx,y&l (3-119a) 
和 
1 十 sin2(z) 十 Sin2(y) 一 0. lexp( 一 Z2 — y?) 一 10 委 z,y 委 10 (3-119b) 











对 SNTO 算法 进行 了 研究 。 由 式 (3-119a) 表 出 的 函数 具有 位 于 原点 的 全 局 最 优 和 一 些 局 
部 最 优 ， 有 关 此 函数 的 三 维 图 和 等 高 线 图 示 于 图 3-23。 对 于 该 函数 ， 用 变 步 长 通用 模拟 退 
火 法 从 两 个 不 同 的 起 始点 出 发 各 运行 了 4 次 〈 见 表 3-460, 与 Kalivas 等 人 所 得 结果 

致 [53] VSGSA 能 收敛 到 函数 GSA1 的 全 局 最 优 解 。 在 用 SNTO 优化 时 ， 每 次 优化 过 程 中 
N 次 布点 中 的 布点 数 n; Gi 二 1,… ,NN ) 均 相同 ， 对 不 同 的 n; 测试 了 SNTO 的 优化 效果 CUL 
3-46). MR 3-46 可 见 ， 除 了 对 应 于 ;二 21G 二 1,2,…,NN) 的 优化 过 程 以 外 ， 其 余 各 次 优化 
均 能 收敛 到 全 局 最 优 解 。 正 如 前 面部 分 所 指出 的 ，n1 的 选择 影响 SNTO 的 优化 效果 ， 因 此 
选取 ni 以 保证 算法 的 收敛 结果 具有 较 好 的 可 信和 度 十 分 关键 。 表 3-47 列 出 了 通过 测试 试验 选 
择 n, WER, Vs (Vs = |M —MCCP DAI Ss (S5 = || x? —x€7P [DIERE Mmi ss 
示 第 一 次 布点 数 为 nl 二 55 R n, —89 时 ， 得 到 的 最 好 点 很 可 能 落 在 同一 单 峰 区 间 。 因 此 可 以 
W n, =55 W n,—89, EIRENE., BIR n; =8 的 优化 过 程 也 能 以 很 少 的 布点 数 收敛 到 
全 局 最 优 解 ， 但 这 是 由 于 所 布 的 点 恰好 落 在 全 局 最 优 解 附近 所 致 ， 所 得 的 结果 并 不 可 靠 。 



















































































响应 值 

















由 式 (3-119a) 表示 的 函数 的 三 维 图 (a) 和 等 高 线 图 (b) 


用 VSGSA and SNTO 对 由 式 (3-119a) 表示 的 函数 所 得 优化 结果 
[全 局 最 优 坐标 点 为 (0,0);， 最 优 相应 为 0] 
VSGSA £& RO 
初始 有 起 始 搜索 点 运行 次 数 所 得 最 优 坐 标点 所 得 最 优 相应 | 目标 函数 运算 次 数 
0.80 (0.85. 0.85) 1 (5.0X10^?, —2.0X10 5) 5.0X10-* 835 
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续 表 
VSGSA 结果 ? 
初始 起 始 搜索 点 运行 次 数 所 得 最 优 坐 标点 所 得 最 优 相 应 | 目标 函数 运算 次 数 
2 (4.4X1075, —2.4X1075) 4. 7X 10-8 1450 
3 (—5.4X10-5, —1.4X10-5) 4. 8X 10-5 815 
4 (2.9X10-5, —2.9X105*) 4. 1X 10-5 1533 
1 (—0.50, —0.50) 1 (5.3X10-75, —2.2X10-75) 5. 7X10-8 815 
2 (—5.4X10-5, 1.4X1075) 4. 8X 10-5 959 
3 (5. 1X10-5, 2.2X10-5) 5. 4X 10-8 1081 
4 (1.1X1075, 5. 1X1079) 9. 0X 10-5 915 
SNTO RO 
n; (i—1, …, N) 总 迭代 数 所 得 最 优 坐 标点 最 优 响 应 目标 函数 运算 次 数 
8 15 (7.6X10-6，7.6X10-5) 2.8X107? 120 
21 4 (0. 0714, 0) 0. 0706 294 
55 15 (0, —2.7X10715) 0 825 
89 5 (6. 7X 107, 8.0X 10-55) 0 1335 
CD 初始 步 长 为 0.15， 步 长 以 2 为 因子 来 减少 或 增加 。 初 始 8 同文 献 [59]。 当 步 长 小 于 1.0X10 * Bf... VSGSA 终止 
运算 。 
© 当 搜索 区 间 长 度 小 于 1.0X10-: 时 ，SNTO 终止 运算 。 
对 由 式 (3-119a) 表示 的 函数 进行 选择 n, 的 试验 结果 ” 
i n, (i) 响 应 值 We Si—1 
1 8 0. 6321 
2 21 0. 4395 0. 1926 0. 7075 
3 55 0. 2394 0. 2001 0. 5040 
4 89 0. 2464 0. 007 0. 0799 
O Vici | MPMP |, Sici | x —x€6-P [s x CH RI MO y 31 25 Br A d Uc TR IRI ec UC B wr Bb pz KY ^l 
标点 。 





由 式 〈3-119b) 表示 的 函数 具有 许多 局 部 最 优 和 一 位 于 原点 的 全 局 最 优 ， 其 函数 的 响 
应 表面 远 比 前 一 个 函数 的 响应 表面 复杂 ， 此 也 数 的 三 维 图 和 等 高 线 图 示 于 图 3-24。 对 于 该 
函数 ，VSGSA 从 四 个 不 同 的 起 始点 出 发 各 运行 了 两 次 ， 在 所 有 的 八 次 优化 过 程 中 ， 只 有 两 
次 找到 了 全 局 最 优 解 ， 表 明 VSGSA 的 结果 不 够 令 人 满意 。Kalivas 等 人 的 研究 显示 ， 对 该 
函数 进行 优化 时 通用 模拟 退火 法 (GSA) 也 易于 陷 人 局 部 最 优 。 表 3-49 列 出 了 SNTO 对 该 
函数 优化 时 ， 试 验 选 择 ”1 的 情况 。 由 于 该 函数 全 局 最 优 响应 值 和 局 部 最 优 响应 值 的 差别 不 
十 分 明显 ， 因 而 V; 间 的 差别 不 显著 ， 主 要 是 利用 S; 来 选取 nl;。 表 3-48 表明 在 第 一 次 布点 
中 ni =610 个 点 中 的 最 好 点 和 7 — 987 个 点 中 的 最 好 点 间 的 距离 S; =0. 3010， 该 数值 要 比 
S,—4.4033 小 得 多 。 因 此 ,ni 可 选 为 610 或 987。 同 时 ， 表 3-49 中 SNTO 的 优化 结果 表 
明 ， 不 适当 的 n, 会 导致 SNTO 收敛 到 局 部 最 优 ， 例 如 当 n,-—89 E n,—233 时 。 与 此 相反 ， 
所 有 7 三 610 的 优化 过 程 均 收敛 到 全 局 最 优 解 。 在 一 个 极端 的 情况 下 , ni1 二 610 f n, —8 
(i 二 2,… ,21) 的 优化 过 程 也 找到 了 全 局 最 优 解 。 可 见 ， 在 用 SNTO 对 复杂 了 三 数 优化 的 过 程 
中 ， 选 取 n >n: 一 23… 是 十 分 有 效 的 。 较 大 的 ni 有 助 于 使 起 始 邻 域 落 在 全 局 最 优 附 近 ， 而 
相对 较 小 的 zG 六 1) 则 有 助 于 减少 总 计算 量 。 需 要 指出 的 是 ， 和 前 面 的 例子 类 似 ， 虽 然 
ni 二 144(i 二 1,2,… ,21) 的 优化 过 程 也 找到 了 全 局 最 优 ， 但 其 结果 并 不 可 信 。 
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bi 


对 由 式 (3-119b) 表示 的 函数 进行 选择 n, 的 试验 结果 ” 





i n,(i) 最 好 点 的 相应 Vi-i Si-i 
1 89 1. 0001 

2 144 0. 9106 0. 0895 6. 2230 
3 233 1. 0108 0. 1002 8. 7029 
4 377 1. 0003 0. 0105 4. 3749 
5 610 0. 9006 0. 0997 4. 4033 
6 987 0. 9980 0. 0974 0. 3010 




















CD 所 用 符号 意义 同 表 3-47. 











响应 值 











CC 265 


CES X uc 





[0-4 
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(b) 
Bist (3-1190) 表示 的 函数 的 三 维 图 (a) 和 等 高 线 图 (b) 


用 VSGSA 和 SNTO 对 由 式 (3-119b) 表 示 的 函数 所 得 优化 结 
[全 局 最 优 坐 标点 为 (0,0); 最 优 相应 为 0.9] 
VSGSA 结果 2 

















初始 | EARRA “| 运行 次 数 | 最 终 步 长 所 得 最 优点 坐标 die 2 
0.4 (—5.62,—9.06) l1 9. 210 ^? (—6.283,6. 283) . 000 3416 
2* 4.7X10 7? (—3.180;,—3. 144) . 002 5792 
—0.4 (1. 32,5. 76) 9. 2x10 5 (7, LO td 756109) 0. 900 657 
2 9. 2X10 ? (6. 2831.0) . 000 8523 
0. 35 (4..054,—3..27) 9. 2X 10 ^? (—6.4X1075,—3.1X10^7?) 0. 900 2348 
2* 3.7X10 * (9. 425,3. 141) . 000 2977 
0. 35 (—96.. 3151. 60) i 5.9» 10 ^? (3. 144,6. 285) . 000 8297 
Ar 4.7X107? (—5.2X107?2,9. 329) . 012 6270 
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续 表 
SNTO 结果 @ 
n, ni(i—2,--,N) 所 得 最 优 相应 所 得 最 优点 坐标 目标 函数 运算 次 数 
89 89 1. 000 (一 6.2832,0) 1869 
144 144 0. 900 (6.63 1079,6. 6X 1073) 3024 
233 233 1. 000 (一 6. 2832, —6. 2832) 4893 
377 377 0. 900 (—9.3X10-73,—9.3X10-9) 7917 
610 144 0. 900 (—1.8X1077,—1.8X10 7?) 3490 
610 89 0. 900 (—9.6X10 7,3.3X10 ^7) 2390 
610 8 0. 900 (3.3X10^*,8.3X10-9) 770 
O 运行 条 件 同 表 3-46. 
© 所 有 迭代 次 数 均 为 21; 其 余 运 行 条 件 同 表 3-46 。 








还 将 此 法 用 于 灰色 分 析 体 系 定量 分 析 (参见 第 六 章 )， 在 有 未 知 干扰 存在 的 情况 下 直接 
测定 待 测 组 分 的 浓度 ， 得 到 了 较 好 的 结果 。 结 果 表 明 SNTO 和 VSGSA 对 混合 物 的 定量 结 
果 无 显著 差异 ， 但 VSGSA 评估 目标 函数 值 的 次 数 明显 多 于 SNTOLs" 。 

四 、 拉 格 朗 日 乘 子 法 

拉 格 朗 日 乘 子 法 是 解决 等 式 约 束 问 题 的 算法 ， 原 理 简 单 ， 广 泛 应 用 于 各 个 领域 中 。 前 面 
提 到 过 ， 化 学 计量 学 领域 的 很 多 方法 都 可 以 表示 成 为 一 个 最 优化 问题 ， 并 能 利用 拉 格 朗 日 乘 
子 法 进行 求解 。 我 们 以 如 下 仅 含有 一 个 等 式 约 束 的 最 优化 问题 


min f(x) 





















































s. t. c(x) 一 0 
为 例 ， 给 出 拉 格 朗 日 乘 子 法 的 基本 算法 。 
首先 ， 引 入 拉 格 朗 日 乘 子 a， 构造 拉 格 朗 日 函数 : 

L(x, a) — f GO c ac(x) 

分 别 对 xz 和 a 求 偏 导 ， 并 令 偏 导数 等 于 零 ， 有 如 下 方程 组 : 

VaL(x, a)=0 

V.L(x. a)=0 
此 方程 组 的 解 便 是 最 优化 问题 的 最 优 解 。 

例 : 设 有 二 元 函数 z= 二 x? 十 y*， 自 变量 x My 满足 等 式 约束 条 件 x 十 y= 二 1， 写 成 优化 

问题 形式 : 














min x? + y? 
st. 十 yy 一 1 
那么 ， 如 何 采用 拉 格 朗 日 乘 子 法 求 z 的 最 小 值 呢 ? 首先 构造 拉 格 明日 函数 : 
工 (Z，y，a) 一 (Z2 十 y2) 十 az 十 7 一 1) 
分 别 对 zx、y Ma 求 导 并 令 其 导数 为 0， 得 方程 组 : 


2x +a = 











2y +a =0 
xd-y—1-20 
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MIETE, r—0.5, y=0.5, a=—1, XE, r=0.5, y=0. 5 便 是 所 求 等 式 约 束 的 最 


2 2 
优化 问题 "> 
Setet tT y= 


, 的 解 。 从 这 个 例子 可 以 看 出 ， 采 用 拉 格 朗 日 乘 子 法 可 以 很 方便 地 对 


等 式 约束 问题 进行 求解 。 拉 格 朗 日 乘 子 法 是 一 种 非常 重要 的 最 优化 算法 ， 在 最 优化 理论 领域 


中 占有 非常 重要 的 地 位 。 


lim 
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第 四 章 分析 测量 数据 的 统计 评价 与 质量 控制 


分 析 测 量 数据 的 统计 评价 与 质量 控制 主要 包括 以 下 内 容 : 有 关 分 析 信 号 的 量 测 不 确定 度 
的 评价 及 其 溯源 分 析 、 测 量 误差 的 分 类 与 处 理 方法 、 检 测 下 限 的 确定 和 分 析 结 果 的 统计 检验 
和 统计 推断 。 本 章 所 讨论 的 这 一 部 分 内 容 ， 主 要 来 自 数理 统计 的 理论 和 方法 ， 属 于 经 典 的 统 
计 学 在 分 析 化 学 中 的 应 用 范畴 号 2 。 

本 章 介绍 的 这 些 方法 虽 大 部 分 属于 经 典 的 统计 学 方法 ， 但 在 分 析 化 学 的 数据 处 理 和 一 些 
化 学 计量 学 结果 分 析 中 ， 一 直 就 是 非常 重要 的 一 部 分 内 容 ， 所 以 ， 有 时 化 学 计量 学 又 有 质量 
计量 学 〈qualimetrics) 之 说 [5 。 在 此 ， 我 们 将 先 对 分 析 信号 的 测量 不 确定 度 的 评价 及 其 淹 
源 分 析 、 分 析 数 据 特 征 描述 、 测 量 误差 的 分 类 与 处 理 方法 、 分 析 方 法 的 检测 下 限 的 确定 、 分 
析 结 果 的 统计 检验 和 统计 推断 作出 较 详细 的 介绍 。 这 部 分 内 容 将 以 介绍 其 基本 概念 为 主线 ， 
着 重 强调 理解 ， 必 要 时 将 给 出 计算 机 程序 。 


第 一 三 ”化 学 测量 的 特点 及 其 不 确定 性 的 表征 与 溯源 分 析 

































































一 、 化 学 测量 的 特点 


随 着 经 济 国 际 化 的 发 展 ， 人 们 对 分 析 化 学 所 得 结果 的 可 靠 性 的 要 求 越 来 越 高 。 如 果 说 以 
前 有 关 化 学 分 析 结 果 主 要 是 来 自 工业 产品 的 检验 需求 的 话 ， 那 么 ， 现 在 对 分 析 化 学 中 测量 和 
分 析 所 得 的 结果 ， 不 但 得 满足 人 民 对 产品 的 安全 和 质量 的 要 求 ， 而 且 大 都 已 完全 进入 了 国际 
贸易 检测 的 方方面面 ， 已 成 为 国际 贸易 交流 中 一 个 十 分 重要 的 环节 和 门槛 ， 有 些 甚 至 还 与 寻 
党 百姓 生活 的 多 个 方面 有 着 千 丝 万 缕 的 联系 。 

德国 知名 分 析 化 学 家 Danzer 指出 ， 与 物理 中 有 关 长 度 、 质 量 等 的 直接 测量 不 同 ， 分 析 
化 学 中 所 遇 到 的 化 学 量 测 大 都 是 通过 复杂 仪器 的 测量 而 间接 获得 ， 其 所 得 的 数据 解析 和 化 学 
信息 的 提取 和 评价 将 比 物 理 的 直接 测量 要 难得 多 [5 。 

也 就 是 因为 以 上 这 两 点 ， 近 年 来 在 化 学 测量 领域 发 生 了 近似 于 革命 性 的 变化 ， 即 每 次 产 
品 的 分 析 结 果 的 报告 都 需要 有 一 个 对 测量 不 确定 性 及 其 溯源 分 析 的 详细 说 明 。 以 前 ， 一般 都 
认为 只 要 得 到 了 一 个 标准 偏差 ， 就 是 对 一 次 化 学 测量 进行 了 有 理由 的 描述 ， 同 时 ， 还 认为 乘 
上 一 个 在 上 分布 上 的 分 点 的 值 ， 即 可 得 到 置信 度 为 95% 的 范围 。 实 际 上 ， 对 该 标准 偏差 是 
否 是 在 一 个 已 很 好 定义 的 条 件 下 进行 并 没有 给 予 特殊 关注 。 然 而 ， 在 需 估 计 的 置信 和 度 为 
95% 的 范围 中 ， 通常 还 需要 总 体 均 值 (population mean)， 这 实际 上 就 没有 回答 该 结果 到 底 
有 多 好 的 基础 问题 ， 为 以 后 的 发 展 留 下 了 空间 。 

随 着 国际 贸易 的 迅速 发 展 ， 出 现 于 贸易 伙伴 之 间 的 有 关 化 学 测量 结果 的 矛盾 和 不 一 致 越 
来 越 多 ， 为 决定 两 个 化 学 测量 的 结果 是 否 明显 同 样 的 测量 变量 和 同样 的 物质 ， 以 此 决定 这 两 
个 化 学 测量 的 结果 是 否 同一 ， 它 们 必须 可 追溯 到 同样 的 参考 物质 ， 并 具有 同样 的 测量 不 确定 
性 ， 怎 样 达到 这 种 可 比 性 也 正 是 本 章 要 讨论 的 内 容 。 

当 进 行 一 项 化 学 测量 时 ， 需 要 取 一 定量 的 试验 物质 并 使 之 成 为 可 分 析 的 形式 ， 还 须 校正 
仪器 来 执行 化 学 测量 的 全 过 程 。 作 为 分 析 化 学 家 ， 还 必须 理解 ， 还 有 哪些 环节 是 可 以 成 为 值 
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得 怀疑 结果 的 地 方 。 在 分 析 过 程 中 的 每 一 步骤 将 带 来 不 确定 性 ， 甚 至 对 于 分 析 方 法 的 基础 ， 
也 应 该 分 析 哪 些 方面 可 能 带 来 不 确定 性 。 一 个 量 测 不 确定 性 的 确定 预算 实际 就 是 对 一 个 分 析 
结果 的 测量 不 确定 性 可 追溯 的 历史 步骤 。 
虽然 顾客 有 时 只 要 求 得 到 一 个 〈 数 值 士 扩充 的 不 确定 性 )， 但 权威 代表 国际 标准 组 织 
(ISO/IEC 17025). 还 要 求实 验 室 提供 有 关 测量 不 确定 性 是 怎样 被 估计 所 得 的 文件 。 

一 般 说 来 ， 无 论 什 么 化 学 测量 所 得 结果 都 只 是 对 所 测 物质 性 质 真 实 值 的 一 种 估计 ， 而 非 
真实 值 本 身 。 因 为 化 学 测量 过 程 大 都 为 间接 测量 ， 受 到 多 方面 因素 的 影响 : 巴 化 学 测量 装置 
的 非 完 美 性 ;，@ 化 学 测量 方法 的 非 完 美 性 ， 不 同 操作 者 的 不 同 习 惯 和 特性 。 所 以 很 难 或 几 
乎 不 可 能 得 到 真实 值 。 

随 着 国际 贸易 的 快速 发 展 ， 任 何 有 关 产 品 的 定量 结果 都 被 这 些 产品 的 消费 者 可 接受 ， 无 
论 他 们 是 否 在 此 组 织 或 国家 包含 之 内 。 所 以 ， 这 就 要 求 ， 一 些 通过 化 学 测量 来 保证 产品 质量 
的 基本 条 款 是 必需 的 ， 即 ，@ 四 可 通用 的 〈be universally applicable); @ 是 一 致 的 (be con- 
sistent); @ 可 计量 的 (be quantifiable); 由 具有 明确 意义 ， 是 清楚 和 不 含糊 的 Chave a 
meaning that is clear and unambiguous) 。 可 符合 上 述 条 款 要 求 的， 实际 上 就 是 需 对 测量 的 不 
确定 性 (measurement uncertainty) 给 出 必要 说 明 。 


二 、 测 量 不 确定 性 的 定义 


根据 国际 度量 衡 基 本 与 一 般 所 用 词汇 表 (The International Vocabulary of Basic and 
General Terms in Metrology, VIM) 第 二 版 [让 给 出 的 定义 ,测量 的 不 确定 性 Cuncertainty 
of measurement). 应 理解 为 : 与 测量 结果 相 联 系 的 结果 参数 ， 以 表征 其 数量 的 散布 度 ， 而 
且 ， 此 参数 可 合理 地 联系 到 被 测 变量 (the "parameter. associated with the result of a meas- 
urement，that characterizes the dispersion of the values that could reasonably be attributed 
to the measurand" ) (条 款 3. 9) 。 在 测量 指南 联合 委员 会 2007 年 发 布 的 “Joint Committee 
for Guides in Metrology 2007”[5 第 三 版 文件 中 ， 其 中 的 测量 不 确定 性 “measurement uncer- 
tainty” 被 再 次 定义 (条款 2. 27)， 其 中 “可 合理 地 联系 到 测量 变量 ”( “reasonably attribu- 
ted” ) 被 “根据 所 用 信息 可 联系 到 测量 变量 ”( "attributed to a measurand based on the in- 
formation used" ) 所 替代 。 此 定义 就 强调 了 应 该 利用 所 有 的 信息 ， 对 测量 不 确定 性 来 进行 
实际 的 估计 ， 同 时 ， 它 还 要 求 能 提供 一 个 有 关 测 量 不 确定 性 的 报告 ， 以 说 明 这 些 信息 是 怎样 
用 来 计算 不 确定 性 的 。 

实际 上 ， 不 确定 性 就 是 一 个 可 表征 一 个 数值 的 范围 。 在 此 范围 之 内 ,测量 的 定量 数据 就 
居于 之 内 ， 这 说 明 测 量 的 目标 性 质数 据 不 应 只 是 一 个 单个 的 数值 ， 如 pH 二 3.7， 因 为 对 此 
数值 将 不 断 会 有 怀疑 出 现 。 实 际 上 ， 谁 也 不 能 十 分 肯定 他 得 到 的 此 单个 测量 值 就 是 真 值 ， 然 
而 ， 却 可 比较 肯定 的 是 ,测量 所 得 的 这 个 数值 实际 可 以 看 成 是 一 种 估计 。 然 而 ， 由 于 真实 值 
的 测 不 准 ， 它 实际 只 存在 于 概念 之 中 ， 我 们 最 多 能 做 的 就 是 提供 一 个 此 值 可 能 存在 的 范围 ， 
而 这 正 是 测量 不 确定 性 可 以 提供 的 信息 。 


三 、 测 量 不 确定 性 的 来 源 


在 测量 结果 中 ， 一 般 存 在 有 两 种 不 确定 性 的 基本 来 源 ， 即 概念 上 的 不 确定 性 和 量 测 之 中 
的 不 确定 性 。 概 念 上 的 不 确定 性 是 一 种 由 于 对 测量 工作 描述 不 准确 而 带 来 的 一 种 不 确定 性 。 
比如 说 测定 “ 湖 中 水 中 的 铜 含量 ”这 种 提 法 就 可 能 引发 概念 上 的 不 确定 性 。 测 定 “ 湖 中 水 中 
的 铜 含 量 ” 是 指 测定 湖 中 的 总 铜 量 还 是 只 测 湖 中 表面 水 中 的 铜 离子 (Cu:* ) 的 含量 ， 或 是 
还 必须 包括 湖 中 沉积 泥 中 的 铜 的 含量 ， 这 就 种 来 了 概念 上 的 不 确定 性 。 有 时 ,分 析 工 作 的 目 
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标 可 以 定义 得 明确 ， 但 所 用 的 分 析 方 法 却 难以 实现 其 目标 ， 比 如 现在 有 机 分 析 中 的 同 分 异 构 
体 的 分 析 问 题 ， 另外， 表面 分 析 也 必须 将 表面 定义 好 ， 如 表面 的 几何 区 域 ， 能 否 被 某 种 特殊 
分 子 到 达 ， 等 。 多 给 出 一 些 信息 就 可 降低 概念 的 不 确定 性 ， 越 详细 越 好 。 概 念 上 的 不 确定 性 
是 测量 不 确定 性 中 的 低 限 。 在 测量 中 的 不 确定 性 主要 是 考虑 系统 和 随机 两 种 因素 。 当 然 ， 这 
两 种 不 确定 性 需 用 不 同 的 方法 来 估价 ， 值 得 指出 的 是 ， 在 不 同 的 时 间 、 地 点 和 条 件 下 ， 两 者 
可 发 生 相互 变化 。 实 际 上 ， 这 两 种 概念 都 保留 ， 但 采用 总 体 的 测量 不 确定 度 的 概念 来 进行 
描述 ,一 般 说 来 是 可 以 达到 目的 的 。 一 旦 系统 误差 (偏差 ) 已 被 校正 好 ,估计 测量 不 确 
定性 就 主要 靠 使 用 重复 量 测 实验 的 结果 ， 即 采用 统计 分 析 的 方法 来 进行 (A 型 )， 而 其 他 
言 息 则 将 来 自 不 同 的 信息 源 (B 型 )， 最 终结 合 A 型 的 信息 一 起 来 对 不 确定 性 进行 总 体 
估价 。 
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际 权威 代表 和 国际 标准 组 织 (CISO/TEC 17025) 对 实验 室 测量 不 确定 度 有 着 特殊 要 求 ， 
如 ISO/IEC 标准 的 17025 号 文件 (ISO/IEC 2005) 规定 ， 它 要 求 “ 测 试 实验 室 必 须 具 备 并 
应 用 一 个 有 效 的 程序 来 估计 测量 不 确定 度 ”， 同 时 ， 还 应 出 具 一 个 可 应 用 的 测试 报告 ， 以 负 
责 “ 测 量 不 确定 度 的 声明 : 当 不 确定 度 与 检测 结果 的 有 效 性 或 应 用 情况 有 关 ， 或 客户 有 明确 
的 需求 时 ， 或 者 是 当 测 量 不 确定 度 明 显影 响 到 符合 规范 的 限制 时 ， 其 结果 中 应 标明 测试 报告 
中 有 关 测 量 不 确定 度 信 息 的 必要 性 ”(ISO/IEC 2005， 第 5. 10 节 )。 虽 然 报 告 的 条 款 中 可 能 
还 遗留 了 一 些 未 解决 的 问题 ， 同 时 并 不 包括 测量 结果 的 不 确定 度 ， 但 是 ， 我 依然 相信 对 于 通 
常情 况 下 测量 法 的 附加 值 来 说 ， 不 确定 度 的 表现 情况 将 会 远 远 超过 任何 突 发 性 问题 ， 而 这 些 
问题 往往 是 由 于 对 测量 不 确定 度 概念 的 不 熟悉 所 导致 的 。 


、 测 量 不 确定 度 的 概率 性 质 


一 个 标准 的 测量 不 确定 度 曾 述 了 一 种 散布 结果 ， 而 这 通常 被 作为 预期 估计 的 基础 。 它 具 
有 一 个 标准 偏差 的 属性 ， 并 含有 适当 的 自由 度 ， 能 否 找 到 一 个 特定 结果 的 概率 也 能 被 计算 出 
来 。 4-1 展示 了 这 一 概念 的 主要 思路 。 

假设 存在 一 个 非常 大 数量 级 的 待 测 物 ， 而 它 很 有 可 能 在 所 有 允许 可 能 变化 的 测量 条 件 下 
进行 测量 ， 其 中 包括 来 自 天 平 校准 、 玻 璃 器 严 等 其 他 因素 的 系统 效应 。 同 样 ， 再 次 假设 所 有 
这 些 被 测量 的 材料 均 是 完全 相同 的 ， 而 它们 正 是 有 效应 用 到 任何 一 种 确定 性 系统 效果 所 需 校 
正中 的 待 测 物 。 测 量 不 确定 度 的 实际 情况 却 是 ， 这 些 待 测试 物 并 非 完 全 相同 的 ， 而 是 分 散在 
这 些 被 测量 值 的 周围 。 在 没有 其 他 任何 信息 的 情况 下 ， 该 分 散 数据 集 可 以 被 假设 为 服从 正 态 
分 布 ， 并 由 两 个 参数 进行 描述 : 均值 (Quo 和 标准 偏差 (oc)。 然 而 ， 实 施 这 样 的 实验 一 般 是 
不 太 可 能 的 。 分 析 人 员 难 以 完成 如 此 大 量 的 实验 工作 ， 也 很 难 让 所 有 实验 因素 都 影响 到 实验 
的 结果 。 然 而 ， 在 具有 实验 重复 性 和 再 现 性 的 条 件 下 ， 要 达到 包含 了 大 部 分 在 测量 不 确定 度 
定义 中 所 提 及 的 总 体 分 布 的 标准 偏差 是 可 能 的 ， 但 分 析 人 员 需 要 增加 系统 效果 的 估计 。 

EURACHEM 手册 (2000, p5) 指出 了 一 个 扩展 不 确定 度 [J ， 并 且 在 其 中 提 到 “该 不 
确定 度 提供 了 一 个 区 间 ， 其 中 测量 值 被 认为 处 于 一 个 更 高 水 平 的 置信 度 中 ”。 通 常情 况 下 ，2 
的 包含 因子 意味 着 95% 的 置信 和 度 (参见 图 4-2)。 而 GUME 指标 则 更 为 严谨 ， 同 时 提醒 着 我 
们 分 布 情况 必须 是 正 态 分 布 才 能 定义 扩展 不 确定 度 ， 其 表述 为 “一 个 被 预期 包含 了 大 部 分 分 
布 情况 的 值 的 区 间 应 该 可 以 合理 地 被 归结 于 测量 范围 内 ”。 扩 展 不 确定 度 是 否 能 被 解释 为 范 
E. HPH 95% 的 量 测 结 果 如 果 在 其 被 引用 的 条 件 下 实施 将 会 无 法 确定 ,或 者 说 所 述 分 析 
报告 是 否 包 含 了 被 测 对 象 处 于 95% 可 能 范围 内 的 (真实 ) 值 ， 大 部 分 取决 于 定义 的 灵活 性 。 
故 在 实践 中 ， 扩 展 不 确定 度 主 要 是 在 后 一 种 情况 下 被 使 用 ， 当 然 还 涉及 评估 结果 与 各 个 对 象 
相对 立 的 情况 或 者 与 法 规 、 规 范 限 制 相 抵触 的 情况 。 
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[D 
尔 的 测量 结果 


表示 为 93% 置 信 区 间 的 
测量 不 确定 度 
测量 结果 离散 程度 的 概念 示意 图 
(a) 每 个 结果 都 是 经 过 多 次 合理 的 测量 才 获 得 的 ， 并 且 每 个 结果 代表 一 个 符号 又 O; 
Cb) 结果 的 分 布 情况 被 表示 为 一 个 基于 单一 结果 和 对 测量 不 确定 度 了 解 情况 的 正 态 概率 密度 


被 测 物理 量 的 值 
































pe uto 


正 态 分 布下 的 置信 度 范围 示意 图 


五 、 测 量 不 确定 度 的 估计 方法 


执行 一 个 测量 不 确定 性 的 评估 方案 ， 一 般 都 采用 “ 自 底 向 上 ” (bottom-up) 的 方法 [9 。 
EAR 〈Horwitz)59 将 这 种 方法 描述 为 不 确定 测量 的 圣经 ， 并 已 获得 了 九 个 国际 组 织 的 认 
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可 [5] 。 一 般 说 来 ， 就 是 通过 以 下 五 个 步骤 对 测量 不 确定 度 进行 估价 : 四 指定 被 测 对 象 ，@ 
找 出 主要 的 不 确定 性 的 来 源 ; 四 量化 不 确定 度 的 各 种 来 源 ; 由 将 重要 的 不 确定 性 组 分 进行 组 
合 合成 后 统一 处 理 ; @ 评 论 估计 结果 ， 并 对 测量 不 确定 度 做 出 统一 报告 。 下 面 将 对 每 一 步 又 
做 出 必要 介绍 。 

(一 ) 指定 被 测 对 象 

被 测量 对 象 须 给 出 明确 说 明 ， 这 样 将 有 助 于 标志 任何 可 能 需要 考虑 的 明确 定义 的 不 确定 
性 。 值 得 一 提 的 是 ， 测 量 不 确定 度 经 常 受 到 环境 化 学 家 的 批判 。 因 此 ， 在 做 任何 结论 之 前 ， 
都 需要 仔细 考虑 ， 应 使 之 与 采样 不 确定 性 保持 一 致 。 事 实 上 ,测量 不 确定 度 与 采样 不 确定 度 
比 起 来 有 时 的 确 是 微不足道 的 。 所 以 ， 分析 师 在 符合 要 求 的 范围 内 宁可 获得 较 大 的 测量 不 确 
定 度 ， 而 偏向 于 选择 更 便宜 的 分 析 方 法 。 从 这 一 角度 看 ， 在 分 析 测 量 不 确定 度 之 前 ， 明 确 指 
定 被 测 对 象 就 十 分 重要 了 。 

(二) 识别 不 确定 性 的 来 源 及 测量 不 确定 度 中 的 因果 医 

间 定 被 测 对 象 意味 着 测量 方法 和 相关 方程 是 明确 的 。 这 为 研究 不 确定 性 的 来 源 提供 了 
个 模板 。 例 如 ， 利 用 简单 滴定 测定 一 种 酸 浓度 可 由 下 式 计算 : 

c1Vi 

en v; 


式 中 ，c，* 是 被 测 酸 浓 度 ;，c1 是 标准 碱 浓度 ， Vi 是 滴定 的 终点 体积 ，V* 是 加 入 到 反应 瓶 
中 的 酸 溶液 体积 ; 给 定 了 3 个 独立 的 误差 源 。 

如 果 被 测 物 是 以 百分比 纯度 表示 的 邻 茶 二 甲酸 氢 钾 样品 的 质量 分 数 ， 可 将 代表 这 个 量 的 
方程 与 测定 其 他 量 的 后 续 操 作 结合 起 来 。 










































































































































































(4-1) 
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uu M analyzed C2 V analyzed 


C1V1V analyzed 

die M weighed Da — Wpnp m weighed ARES — C ViWenem weighed 
XX (4-2). 中 ，Vanavzed 为 溶液 体积 :7 waenad 为 样品 中 邻 茶 二 甲酸 氧 钾 洲 解 的 质量 ， 公 pHp 为 
邻 茶 二 甲酸 氨 钾 的 摩尔 质量 。 其 他 项 目 在 方程 中 均 已 定义 。 现 有 6 种 量 可 以 评估 不 确定 性 ， 
这 些 因 素 之 间 的 关系 都 表示 在 因果 图 (也 称 为 Ishikawa 图 ) 内 。 要 从 一 个 分 析 方 法 的 程序 
和 等 式 包 含 的 信息 中 建立 一 个 不 确定 度 来 源 因 果 图 ， 可 遵循 以 下 步 台 。 首 先 ， 在 一 张 纸 的 中 
间 夯 一 条 水 平 向 右 的 箭头 ,在 箭头 末端 标记 被 测 变量 符号 。 从 被 测量 值 方程 确定 的 来 源 开 
台 ， 画 一 些 和 这 条 线 成 45" 的 舌头 ， 每 一 个 都 表示 方程 中 的 一 个 量 外 加 还 未 计算 的 任何 其 他 
来 源 ， 重复 这 个 过 程 。 在 每 个 箭头 的 开端 对 这 个 量 进行 标记 ， 图 4-3 展示 了 一 个 酸 纯度 测定 
的 初始 因果 图 。 这 些 图 很 有 用 ， 每 个 箭头 可 在 其 方向 上 显示 不 同 问题 ， 因 此 可 用 箭头 表示 分 
量 的 不 确定 度 等 。 注 意 到 一 些 洪 在 的 候选 因素 也 可 被 添加 到 网 4-3 中 〈 见 图 4-4). 


x 10096 (4-2) 
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重复 性 


邻 茶 二 甲酸 氢 钾 样本 纯度 测定 的 第 二 轮 因 果 图 
T 为 温度 ，Vcu 为 娇 正体 积 。 邻 茶 二 甲酸 氢 钾 的 摩尔 质量 和 
溶解 质量 的 不 确定 度 足以 忽略 ， 因 而 在 图 中 被 略 去 





















































通过 上 述 讨论 ， 在 引入 因果 图 后 ,分 析 工 作者 可 能 对 不 确定 度 有 了 一 定 认识 。 显 然 ， 次 
要 来 源 通常 在 实验 初期 可 以 进行 评估 及 和 忽略， 如 分 子 质量 的 不 确定 度 。 而 对 质量 、 体 积 及 温 
度 的 不 确定 度 应 该 深入 了 解 。 

(三 〉 量 化 不 确定 度 的 各 种 来 源 

用 一 个 适当 的 天 平 称 重 通 常 是 一 个 非常 精确 的 过 程 ， 因 此 往往 被 用 于 微量 测试 。 但 实际 
上 体积 测量 用 到 了 移 液 器 、 容 量 瓶 、 量 简 和 滴定 管 ， 每 一 种 器 亚都 有 不 同 的 校正 不 确定 度 ， 
而 这 些 在 制造 商 提供 的 信息 中 都 有 详细 说 明 。 另 外 ， 在 实验 中 ， 若 样本 需要 经 过 衍生 、 萃 取 
或 其 他 的 化 学 、 物 理 过 程 得 到 被 检测 部 分 ， 那 么 应 考虑 回收 率 问 题 。 即 使 回收 率 可 以 达到 
100%， 在 前 处 理 过 程 中 也 包含 不 确定 度 来 源 。 例 如 ， 温 出 样品 以 分 析 淄 出 液 中 的 重金 属 元 
素 ， 从 样本 中 提取 出 来 的 量 取决 于 浸出 液 〈 化 学 物质 的 种 类 、 浓 度 )、 淄 出 温度 与 浸出 时 间 。 
这 些 影响 量 的 不 确定 度 都 会 导致 测量 结果 改变 。 因 此 ， 在 验证 研究 中 ， 应 对 这 些 影 响 量 的 作 
用 进行 量化 ， 且 在 因果 图 中 作为 因子 表示 出 来 。 图 4-5 为 测量 鱼 中 重金 属 条 含量 的 因果 图 。 
称 量 鱼 的 质量 min 将 称 量 后 的 样本 在 热 酸 中 消解 30min， 得 到 体积 为 V 的 溶液 ， 再 
用 氢化 物 原子 吸收 光度 计 (AA) 分 析 深 液 。 鱼 中 重金 属 冬 浓 度 可 表示 为 




































































































































































Cexttact V. C digest V 
一 ie (4-3) 


M fish M fish 
其 中 ， 通 过 AA 测 得 的 消解 液 浓度 可 能 不 等 于 式 (4-30 中 用 到 的 提取 液 浓度 。 这 种 不 
> cowract Æ Cages ) 作用 可 能 是 由 消解 时 间 、 温 度 、 酸 浓度 引起 的 。 即 使 因子 fane( 时 
间 因 子 ) fim (温度 因子 ) 、f cose (浓度 因子 ) 是 相 一 致 的 ， 但 是 这 些 影 响 因 素 中 的 与 变异 相 
关 的 不 确定 性 也 要 被 考虑 。 
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在 测定 牙 松 物质 中 提取 出 来 的 被 测 物 时 ， 还 需 考 虑 样本 的 均一 性 。 在 分 析 环 境 样本 CUL 
其 是 土壤 样本 ) 及 生物 样本 时 需 考 虑 自然 变异 ,通常 在 质 控 过 程 中 有 很 大 的 变异 性 。 取 样 方 
差 由 多 次 独立 测量 样本 佑 计 。 另 外， 取样 过 程 很 少 包 含 在 实验 室 方法 验证 研究 中 ， 因 此 ， 在 
考虑 这 个 因素 时 ， 需 结合 重 现 性 一 起 考虑 。 下 面 就 以 标准 体积 不 确定 度 的 来 源 和 量化 确定 来 
加 以 说 明 。 

1. 标准 体积 不 确定 度 的 来 源 及 确定 

重复 性 要 通过 一 系列 的 称 重 实验 进行 独立 的 评 佑 ， 在 这 个 过 程 中 ， 水 在 控制 温度 〈 影 响 
密度 ) 下 保持 平衡 ， 这 样 可 使 得 称 重 的 不 确定 度 相对 于 体积 变异 而 言 很 小 。 若 进行 重复 分 析 
(如 10 次 )， 那 么 移 液 管 和 其 他 体积 测量 的 重复 性 将 包含 在 整个 测量 的 重复 性 中 ， 这 样 就 可 
以 很 快 地 整合 所 有 的 不 确定 度 来 源 以 得 到 最 终 测 量 不 确定 度 的 估计 。 

制造 商 的 校准 信息 必须 考虑 。 假 如 所 购买 的 10ml 移 液 管 的 体积 的 确 是 10ml， 但 是 制造 
商 只 能 保证 移 液 管 的 体积 不 低 于 9. 98ml， 不 高 于 10.02ml。 在 整个 实验 过 程 中 移 液 管 都 将 
使 用 到 ， 因 此 ， 在 重复 测量 过 程 中 产生 的 系统 效应 不 会 消失 ， 必 须要 考虑 在 内 。 有 两 种 方法 
可 以 采用 ,第 一 种 方法 是 在 实验 室 对 移 液 管 进 行 校正 。 称 重 实验 可 以 得 到 测量 的 标准 偏差 ， 
也 可 以 得 到 移 液 管 的 平均 体积 估计 。 

假如 体积 的 10 次 测量 结果 如 下 : 






















































































实验 次 数 体积 /ml 

10. 0104 

2 10. 0110 

3 10. 0116 

4 10. 0124 

5 10. 0129 

6 10. 0132 

7 10. 0139 

8 10. 0145 

9 10. 0150 

10 10. 0164 

均值 10. 0131 
标准 偏差 0. 019 
平均 标准 偏差 0. 0006 














fik: 10ml 移 液 管 10 次 称 重 数据 。 质 量 已 被 转化 为 体积 ， 不 确定 度 计 算 中 假设 忽略 称 
重 的 体积 计算 因素 。 


假设 进行 了 10 次 称 重 实 验 ， 移 液 管 的 平均 体积 为 10.0131ml， 标 准 偏差 y H 0. 0019ml. 
那么 平均 标准 偏差 为 0. 0019/ V10 =0. 0006ml 。 那 么 ， 以 后 如 再 使 用 此 移 液 管 ， 在 计算 中 其 
体积 就 应 为 10. 013ml， 不 确定 度 为 u ==0.0006ml 。 注 意 ， 体 积 不 是 10ml， 不 确定 度 不 是 
0. 02/ V6 =0. 00082m] (假设 符合 三 角 分 布 , a 二 0.02ml )。 因 此 ， 通 过 实验 校正 ， 移 液 管 的 
体积 估计 将 更 准确 ， 标 准 不 确定 度 更 小 ( 注 : 在 校正 中 ， 最 好 使 用 电子 表格 ,通过 四 舍 五 人 
使 得 最 后 结果 更 准确 。 若 在 计算 中 伟人 不 准确 ， 那 么 将 对 校正 结果 有 很 大 的 影响 )。 

第 二 种 方法 是 随机 选择 不 同 的 移 液 管 重复 实验 对 移 液 管 进行 校正 。 整 个 测量 的 标准 偏差 
(包含 了 使 用 移 液 管 的 差异 ) 就 扩展 到 移 液 管 间 的 差异 ， 无需 在 校正 中 考虑 具体 的 来 源 。 这 
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就 说 明 通 过 选择 实验 可 以 消除 系统 和 随机 作用 。 

温度 影响 作用 也 可 通过 实验 校正 。 若 在 实验 过 程 中 同时 测量 温度 ， 玻 璃 器 亚 的 体积 可 以 
通过 校准 玻璃 器 严 的 标 称 温度 (通常 是 20C) 来 进行 校正 。 比 如 ,测量 实验 是 在 温度 均值 
为 22. 3 的 情况 下 进行 的 ， 得 到 了 一 个 温度 标准 不 确定 度 为 0.5C ， 在 试管 中 的 液体 将 膨胀 
(玻璃 的 膨胀 将 被 忽略 ) 。 这 样 ， 在 此 情况 下 ， 实 际 移 取 的 液体 将 比 在 20. 0'C 的 情况 下 要 少 。 
注意 到 温度 的 不 确定 度 为 0.5C (wu 二 0.5'C)， 将 包括 温度 测量 本 身 的 不 确定 度 ( 读 温度 计 
及 温度 计 的 校正 ) 和 温度 的 均值 的 标准 偏差 。 移 液 管 的 正确 体积 为 10. 013ml， 由 于 实验 温 
度 与 标 称 温度 的 差异 带 来 的 体积 偏差 为 一 0. 00021X2.3X10.013 二 一 0.0048ml， 它 带 有 的 
标准 偏差 为 0.00021X0.5X10.013 二 0.0011ml。 这 样 ， 体 积 应 该 校正 为 10.013 一 0. 0048 = 
10. 0082ml， 而 且 它 的 温度 的 不 确定 度 是 0.0011ml， 蔡 代 0. 0042ml， 它 是 由 实验 室 的 估计 
温度 变化 士 4C (95% BAKED 计算 所 得 。 在 此 ， 一 个 估计 的 系统 效应 被 处 理 为 标准 的 不 
确定 度 ， 然 后 ， 将 其 转换 为 一 个 真正 的 标准 不 确定 度 ， 与 总 的 不 确定 度 结合 起 来 表征 为 结果 
的 不 确定 度 。 表 4-1 与 图 4-6 示 出 了 这 些 结果 。 因 为 估计 的 体积 被 改善 了 ， 不 确定 度 也 降低 
了 。 在 试验 中 对 玻璃 器 下 和 温度 测量 仔细 地 校正 ， 将 使 玻璃 器 亚 的 体积 的 不 确定 度 显 著 下 
降 。 如 果 玻 璃 器 亚 体 积 的 不 确定 度 对 整个 测量 过 程 的 不 确定 度 的 贡献 不 大 ， 我 们 就 必须 根据 




















































































































































































































实际 情况 而 定 。 
计算 给 定 场景 下 标 称 10ml 吸 量 管 的 转运 体积 及 测量 不 确定 度 (参见 图 4-6) 
项 目 体积 校正 前 体积 校正 后 温度 十 体积 校正 后 
校准 体积 数 (10ml) 10. 0000 10. 0130 10. 0082 
重复 测量 不 确定 度 0. 0019 0. 0019 0. 0019 
计算 不 确定 度 0. 0082 0. 0006 0. 0006 
温度 不 确定 度 0. 0042 0. 0042 0. 0011 
uc 0. 0094 0. 0046 0. 0022 
9596 (df— 9) 0. 0212 0. 0105 0. 0051 
iE: 0.0082 — 0.02/46 ; 0.0042 — 4 X 0.00021 X 10/2; 0.0094 = 4/0. 0019? F0. 0082? F0. 0042? ; 0.0212 = Tim 





(0.05. 9) X0.0094 

2. 通过 标准 物质 估计 偏差 和 回收 率 

通过 对 已 论证 的 参考 (或 标准 ) 物质 (certified reference material, CRM) 的 重复 测 
量 ， 可 以 估计 出 量 测 偏差 (6)， 量 测 偏差 可 由 式 (4- 给 出 : 





























9 =C crm (measured) — Cerm (certified) (4-4) 


式 中 ，Ccrm (certified) 是 已 论证 的 参考 (或 标准 ) 物质 的 浓度 ; Cerm (measured) 
是 实验 室 对 此 标准 物质 重复 测量 p 次 的 平均 值 ， 该 量 测 偏 差 的 测量 不 确定 度 (ucrm) 由 式 


(4-5) 表示 : 
[2 
U bias 一 P 十 U CRM (4-5) 


式 中 ，s: 表 示 的 是 偏差 测量 的 重复 性 ; ucrm 表 示 的 是 在 有 证 标准 物质 浓度 下 的 不 确定 
度 。 偏 差 的 含义 是 通过 单 侧 : 检验 在 95% 置 信 区 间 上 评估 的 。 


Ô > Lo, og, p— U bias 
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10.0400 - 
10.0200 - T T 

县 二 
it 10.0000} a g 
pinn 
gt 
pont 

9.9800 - L 

9.9600 ; | 

无 校正 体积 校正 后 温度 + 体积 校正 后 
不 确定 度 处 理 


不 同 校正 条 件 下 ， 标 称 10ml 移 液 管 转运 体积 的 值 及 其 95% 的 置信 区 间 
(体积 校正 时 计算 体积 采用 10 次 称 重 实验 校正 ， 温 度 较 正 时 体积 采用 实验 室 测定 温度 校正 ) 


一 个 样本 CC sample ) 的 测量 结果 采用 n 次 测量 的 均值 及 不 确定 度 来 评估 : 












































C sample = C F Ó run 
2 


EN 2 
U sample — — / bias 
n 








即使 般 差 被 认为 是 不 显著 的 ， 也 必须 包括 U bias o 扩展 不 确定 度 通过 U sample 与 一 个 适当 的 包 
含 因子 相 乘 得 到 。 需 要 注意 的 是 ;应 通过 一 定 天 数 及 样本 批 次 间 适 当 数 目的 重复 实验 (至 
少 10 次 ) 得 到 。 类 似 的 方法 被 用 于 评估 重复 性 ， 定 义 为 : 

















u C cuu Có measured) 


p= CcrM (certified) 





及 相应 的 不 确定 度 : 


1 s 3 uc 2 
| ^ esum. 
P | Cerm (measured) CcnM (certified) 


用 于 校准 的 有 证 标准 物质 (CRM) AR E vr YE fec 8 8. B) E 3 £2. fA E t (E IR] AP f E E 
若 用 置信 区 间 表 示 ， 那 么 应 定义 包含 因子 (如下)。 通 常 & 值 取 2， 表示 被 测量 的 置信 概率 
为 95%。 用 于 不 确定 度 计 算 的 标准 不 确定 度 等 于 引用 的 半 宽 度 ( 量 值 士 半 宽度 ) 除 以 &。 通 
常 ， 有 证 标准 物质 CRM 的 量 值 表示 为 x 士 U， 并 注 明 包含 因子 k 的 取 值 ， 则 有 

u =U/k 


若 直接 使 用 有 证 标准 物质 ， 那 么 不 确定 度 值 n 包含 所 有 部 分 。 例 如 ， 某 已 认定 纯度 的 
纯 参 考 物质 溶解 于 缓冲 器 中 以 作为 校准 溶液 ， 那 么 溶解 过 程 及 测量 仪器 的 观测 体积 的 不 确定 
度 均 包含 在 内 。 

若 校正 方程 用 相关 系数 表示 ， 该 系数 由 拟 合 已 知 浓度 标准 物质 模型 的 仪器 响应 值得 到 ， 
那么 必须 考虑 此 过 程 的 不 确定 度 。 经 典 最 小 二 乘 回 归 (电子 表格 及 计算 器 中 的 默认 回归 方 
法 ) 包含 三 个 主要 假设 有 效 的 线性 模型 ， 仪 器 的 响应 值 是 随机 变量 且 方 差 为 常数 (homo 
dcedacity)， 自 变量 (浓度 或 校准 物 含量 ) 已 知 且 无 不 确定 性 。 模 型 用 以 下 方程 表示 : 
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Y =a -- bx +e (4-6) 


式 中 ,a ERIE; b 是 线性 方程 的 斜率 ; e 是 符合 正 态 分 布 的 随机 变量 〈 零 均值 、 e 
差 )。 这 三 个 假设 必须 同时 成 立 。 尤 其 要 注意 ， 当 浓度 范围 较 宽 时 ， 方 差 很 少 为 恒定 值 。 
常 ，RSD 近似 为 恒 量 ,， 这 就 使 得 Y 的 标准 偏差 增加 ， 此 时 ， 需 使 用 加 权 回 归 。 当 上 rw 
模型 用 于 计算 观测 值 (yo〉 对 应 的 未 知 浓度 ( zo) 时 ， 其 标准 偏差 ( s:。) 为 


S3 (yo — y)? 
gue DA n on (4-7) 
b m n 02 Dr; 一 元 ) 


NP, m 表示 观测 相应 值 的 重复 次 数 (yo 表示 平均 值 ); n 表示 校正 曲线 中 的 点 数 ; 6 
是 校正 曲线 的 斜率 ; y 和 去 是 校正 数据 的 平均 值 ; z; 表示 校正 集中 第 i 个 z 值 。 在 上 述 方程 
H, sy/i/(b Vm ) 表示 样本 仪器 响应 值 的 重复 性 。 如 果 重 复 性 的 独立 估计 是 已 知 的 ， 那 么 可 
以 用 其 代替 ss. 

如 果 不 确 定 100% 的 被 测 物 是 否 能 代表 测量 体系 或 者 校正 体系 的 响应 值 是 否 无 偏差 ， 那 
么 在 验证 过 程 中 束 要 检验 假设 是 否 成 立 ， 或 者 采用 其 他 合适 的 方法 验证 。 而 天 茶 有 证 标准 物 
质 ne 的 一 系列 测量 值 对 于 观测 值 有 明显 偏差 ， 则 需 对 测量 值 进行 修正 ， 
且 测 量 值 的 不 确定 度 应 包含 在 测量 值 偏差 的 不 确定 度 中 。 反 之 ， 若 无 明显 偏差 ， 则 测量 值 无 
需 进 行 修正 ， 此 量 偏 差 是 由 零 增 加 了 不 确定 度 ， 可 能 偏差 不 一 定 真 正 为 零 ， 但 是 小 于 测 
量 值 的 不 确定 度 。 因 此 ， 此 种 计算 测量 值 不 确定 度 的 方法 是 用 一 系列 有 证 标准 物质 来 校正 偏 
差 ， 而 此 估计 偏差 的 不 确定 性 不 仅 包 括 有 证 标准 物质 的 量 值 不 确定 度 ， 同 时 包含 实验 室 间 的 
重 现 性 。 然 而 在 很 多 分 析 领 域 中 ， 和 常规 测量 值 和 偏差 修正 无 法 得 到 ， 因 此 ， 将 偏差 估计 包含 
在 测量 不 确定 度 中 。 

(四) 将 重要 的 不 确定 性 组 分 进行 组 合 合成 后 统一 处 理 

一 旦 不 确定 度 的 各 种 分 量 被 确定 ， 并 被 量化 为 标准 不 确定 度 ， 评 佑 不 确定 度 的 剩余 步 又 
一 般 就 变 得 简单 了 。 市 场 上 已 有 较 多 软件 产品 能 完成 这 一 任务 。 否 则 ， 就 必须 要 通过 一 些 电 
子 表格 处 理 或 数学 计算 来 得 到 不 确定 度 。 一 个 结果 的 合成 标准 不 确定 度 应 通过 将 各 组 分 的 标 
准 不 确定 度 经 一 定数 学 处 理 后 ， 再 作为 最 终 不 确定 度 给 出 。 有 些 组 分 的 标准 不 确定 度 ， 也 可 
能 是 其 他 不 确定 度 的 组 合 ， 依 此 类 推 ， 以 形成 因果 关系 图 的 分 支 及 亚 分 支 。 直 到 得 到 最 终 测 
E y 值 的 合成 标准 不 确定 度 ， 记 为 uc(y)。 

1. 合成 标准 不 确定 度 的 数学 基础 

此 处 所 描述 的 方法 具有 赋予 每 个 不 确定 度 分 量 以 标准 偏差 特性 的 优点 ， 因 此 ， 合 成 标准 
aia M ds 

对 于 测量 结果 Qo 与 一 系列 输入 量 (r—rQj £25 ce r0 之 间 的 一 般 关 系 


y=f(x) 











































































































































































































































































































y 的 方差 so?(y) ， 可 由 式 (4-8) 给 出 : 


i—n 


9 k—n-—l jn 9 3 
"o7 ven] +2 3 5 | 3 covCr, > 2I (4-8) 
i=1 L9 Ti 1 Tj | 


VE gu 





























式 中 , covGr,. <j) 指 是 x, 与 x; 间 的 协 方差 。 如 果 该 合成 不 确定 度 的 平方 等 于 方 
差 ， 则 











i—n 3 2 k—n-—l jn 9 9 
do» - 53 Lu) | +2) | ys 2| (4-9) 
? Xi , 1L Xa d Xj i 
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方程 (4-9) 也 可 改写 为 采用 x 、x; Rre; 间 的 相关 系数 的 计算 形式 


k=n—l j—n 


ulCy) c | 和 crop 2 2j PE JEGOU Era, | (4-10) 
微分 是 局 部 的 ， 所 以 当 对 一 个 量 求 微分 时 ， 其 他 的 量 被 认为 是 不 变 的 。 变 量 9 y/ 9 a 被 称 
为 xz; 的 敏感 度 系数 (有 时 记 为 c; )， 描 述 的 是 y 如 何 随 着 z; 变化 而 改变 。 对 于 最 简单 情 
Dl, y 一 constantz ， 灵 敏 度 系 数 也 是 常数 。 

如 果 所 有 的 输入 量 彼此 独立 〔 例 如， 测试 项 目 中 质量 的 任何 改变 都 不 会 造成 气相 色谱 中 
的 溶液 进 样 体积 的 任何 变化 )， 则 x 等 于 0, 方程 (4-10)〉 可 简化 为 



































i=n ay 2 
| (4-11) 
i-—l © Ti 
WH. WR > 只 依赖 于 一 个 量 [ 即 y =f], Jr 8 (4-11) 将 进一步 简化 为 
9 
uo = [Zu] (4-12) 
ax 





下 面 将 对 每 一 步 的 具体 计算 给 出 详细 说 明 。 

2. 相 加 组 分 

对 于 以 相同 单位 表示 的 同 种 类 型 的 独立 量 ,， 方差 (标准 偏差 的 平方 ) 与 灵敏 度 系数 相 乘 
后 求 和 得 到 合成 方差 。 例 如 ， 减 量 法 称 重 即 由 最 终 读数 减 去 初始 读数 计算 的 滴定 体积 。 在 这 
些 种 类 的 差别 测量 (difference measurements) 中 ,测量 使 用 的 是 相同 的 仪器 (天平 、 滴 定 
管 )， 和 恒定 的 系统 误差 被 抵消 ， 只 剩 下 随机 误差 或 比例 系统 误差 。 采 用 以 毫升 读数 的 初始 体 
TA (Vua 及 最 终 体积 Voa) 计算 以 升 表示 的 消耗 体积 (AV): 

AV —0. 001 X (V. — V aai) 





















































9 AV 3 AV 
syal ) =0. 001 E cv - (5 ) =—0. 001 
Vstart £ V start Vend 


则 





uc AV) — L0. 001u (Vena) ]? + [— 0. 0014 CV start) |? 





—0. 001 X Vu (Vend)? + u (V sarn)? 
当 贡 献 不 确定 度 的 只 是 单一 量 组 合 时 ， 计 算 就 更 为 简便 。 此 处 的 灵敏 度 系数 为 1， 且 各 
自 的 不 确定 度 都 只 是 平方 和 求 和 。 人 例如， 上述 讨 论 的 移 液 管 的 转运 体积 的 合成 不 确定 度 效应 
包括 重复 性 、 校 正 不 确定 度 和 温度 效应 ， 其 合成 不 确定 度 的 平方 即 为 各 效应 的 平方 和 : 
ut (V) =u? (V) + WO uia) 



































因此 组 合 不 确定 度 为 





u C) =u? (V) + uzaCV) + ufemp (V) 
上 述 方程 并 不 意味 着 一 系列 标准 不 确定 度 可 以 简单 地 进行 平均 。 平 方 相 加 及 均 方 根 是 常 
用 的 处 理 方法 。 就 像 苹果 和 橘子 不 能 直接 相 加 〈 除 了 作为 水 果 的 类 别 之 外 )， 所 以 诸如 温度 
变化 的 不 确定 度 ， 必 须 转 换 成 其 对 体积 的 影响 才能 在 上 述 方程 中 使 用 。 温 度 的 影响 通过 它 与 
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体积 之 间 的 关系 Luiems(V) =0. 00021Vu emp] ， 转 化 为 对 体积 的 不 确定 度 。 水 的 膨胀 系数 为 
0.00021'C 1， 它 与 以 升 表 示 的 体积 及 以 摄氏 度 表 示 的 温度 不 确定 度 相 乘 ， 得 到 以 升 表 示 的 
体积 不 确定 度 。 

不 确定 度 总 是 可 以 根据 上 述 方程 进行 组 合 ， 即 使 量 是 相 减 的 〈( 即 不 确定 度 的 平方 总 是 相 
加 )。 这 就 是 通过 两 个 很 大 的 、 量 级 几乎 相同 的 量 相 减 得 到 的 计算 结果 (例如 ， 用 船长 在 船 
上 时 船 的 总 重量 减 去 船长 不 在 时 船 的 总 重量 来 称 量 船长 的 体重 )， 普 遍 被 认为 具有 极 大 的 不 









































确定 度 的 原因 。 
3. 相 乘 或 相 除 的 量 
测量 就 是 一 个 已 知 量 与 一 个 未 知 量 的 比较 。 这 一 比较 通常 是 某 种 测量 仪器 的 一 种 比率 。 


对 于 最 简单 的 情况 ， 大 y 二 +2/x1， 应 用 方程 (4-11)， 则 


9 y C 
o - (2) «aeos 


3 2 
3 u? (x3) 
X475 


9 y X2 y 9y 二 
9 x) zz wp xi 9 X5 "RET 
































=y 2 3 
x x ri 
2 
, 4c x1) ,Uc (Xa) 
=y — y 一 
X X2 


因此 


2(y) u(x) | ui) 
A UN (4-13) 





LEE .2 j .2 
y X1 T? 


ucCy) — ui (zx1) u* (xg) 
y i z? z? 


方程 给 出 了 乘除 组 合 量 的 简单 规则 : 其 相对 不 确定 度 等 于 各 分 量 相 对 不 确定 度 的 平方 和 。 量 
的 值 需要 计算 相对 不 确定 度 〈 不 确定 度 比 上 测定 值 )， 这 也 强调 了 一 个 事实 ， 即 测量 不 确定 
度 是 针对 特定 结果 的 属性 ， 而 不 是 针对 方法 的 。 

4. 对 数 及 指数 函数 

大 多 数 分 析 测 量 符合 上 面 讨论 的 简单 的 算术 规则 。 当 面临 其 他 数学 函数 时 ， 则 需 使 用 下 
述 方程 或 可 以 使 用 其 简化 形式 之 一 。 例 如 ， 观 察 一 个 光源 强度 的 变化 (从 108] Do. 36864 
为 吸光 度 (A) 
























































I 
吸光 度 的 不 确定 度 wu(A) 由 式 (4-14) 给 出 


da =o eg :J (4-14) 
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应 用 方程 (4-13) 则 有 











- ; , 
u? (A) 一 lg(e) eT) ' F) | (4-15) 
|t fs I 
光 


从 式 (4-15) 可 看 到 ， 吸 光度 的 绝对 不 确定 度 与 光 强 度 TI。 和 了 的 相对 不 确定 度 的 组 合成 
正比 。 

5. 计算 公式 小 结 及 具体 示例 

下 面 以 表格 的 形式 给 出 各 种 计算 的 组 合 不 确定 度 的 具体 公式 〈 表 4-2)， 以 方便 读者 
使 用 。 


不 同 计算 的 不 确定 度 的 组 合 公式 
























































组 合 不 确定 度 组 合 不 确定 度 
组 合 不 确定 度 i 组 合 不 确定 度 
的 计算 公式 区 is 的 计算 公式 B 5 
a ula) A? ub) N? 
y=a+b uCy) — Vula)? +u b)? y—uu uCy)—y T 
2 a b 
y—a-—b u Cy) — Vula) Fub)? y—Br u Cy) — Bux) 
uCa)Y? u (b) N? ula) 
y=ab u(y)=y a ya" uCy)— yn 
a b a 
ik. 表 中 B 为 常数 。 








为 帮助 读者 更 好 地 理解 如 何 合成 各 种 标准 不 确定 度 以 得 到 组 合 的 不 确定 度 ， 下 给 出 一 个 
具体 实例 的 说 明 。 
为 配制 一 种 浓度 为 c 的 标准 溶液 ， 称 取 一 定 质 量 的 已 知 纯度 的 标准 物质 ， 并 将 其 深入 一 
定量 的 溶剂 中 ， 各 种 用 量 如 下 : 
所 用 质量 (M) 二 100. 5mg. u (M) =0. 208mg 
物质 纯度 (P) —0.999, u(P) =0. 00058 
溶剂 体积 (V) —100ml. wu(V) —0. 16ml 


组 合 不 确定 度 的 计算 公式 为 : 


























M 
e =" X 100mg/L (4-16) 





注意 式 〈4-16) 中 的 1000， 它 实际 是 一 个 转换 因子 ， 其 作用 在 于 将 结果 转换 成 所 需 的 量 纲 单 
位 形式 (mg/L)。 因 此 ， 溶 液 的 浓度 c 的 组 合 不 确定 度 可 按 下 面 几 个 式 子 来 进行 计算 : 


100.5X0.999 
* 100 


E uM |, (uCP)Y? , (u(CVoV 
而 uo =e x EER e (E) e (m 


将 各 种 标准 不 确定 度 代 入 : 
0.208]? . (0.000887 . (0.16? 
uo = 1004 x (228) | 0. 999 ) ! [这 


Bp uc) —1004 X 4/0. 002072 + 0. 000581? + 0. 00160? 














x 1000 — 1004. 0mg/L 
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最 终 得 : 
u (c) —1004 X 0. 00268 —2. 69mg/L 
所 以 ， 最 终结 果 可 以 表示 为 :c 一 (1004 士 2.7)mg/L 
6. 相关 性 说 明 
注意 到 在 前 述 的 合成 不 确定 度 的 计算 公式 中 ， 在 其 第 2 项 中 实际 包含 了 各 标准 不 确定 度 
之 间 的 相关 性 : 











—l jn 


i—n 9 2 b—n-—l E 9 
doo - Mo) 十 2 >, 5| 2 Lacu, ;] 


i-l i k=1 j—k-1 9x, zt 

















这 些 简单 的 公式 用 于 组 合 不 确定 度 是 依靠 于 成 分 的 量 测 值 之 间 的 独立 性 。 采 取 真 正 的 随 
机 重复 ， 因 此 不 同 测量 的 合成 不 确定 度 用 重复 度 u) 计算 如 下 











ucG) —u(r)? +ulr)? —42u(r) 
类 似 地 ， 如 果实 验 过 程 中 温度 随机 波动 ， 就 会 影响 到 开始 和 结束 的 体积 。 然 而 ， 对 于 一 个 常 
数 的 影响 ， 任 何 校准 误差 能 够 完全 消除 ， 消 除 后 某 种 程度 上 有 一 定 的 比例 效应 。 因 此 如 果 体 
积 读数 Vos NEXE Vine 十 AV， 那么 两 次 读数 V obsa 和 Vobs.2 的 差 值 为 
(V ops, 2 — V obs, 1) CV cue, 2 c AV) — CV aue, 1 "pr AV) = V rue, 2 — Vue, 1 

在 分 析 量 测 中 经 常 存在 相关 性 ， 因 为 比例 运算 或 差分 运算 的 数据 来 自 相 同 的 仪器 或 设 
备 ， 由 于 系统 效应 两 次 的 量 测 结果 很 可 能 不 变 。Hibbert 发 展 了 一 个 简单 的 比例 与 完善 相关 
性 理论 ， 简 介 如 下 [5 。 

ii— E618] R —a/b. XP a flo 的 不 确定 度 相 同 且 都 等 于 ww。 如 果 相 关系 数 7 为 1， HE 
4 R 的 不 确定 度 就 是 


I R\? Ia R\? dR 3 R 
2 ax 2. 2. 2 
aw- 5 (8) (5) (58). 
oR 
E 
"G^ 




















ia 














通过 代数 方法 可 得 A =u (ti) 
u? CR) u? 
或 qa 














如 果 假 设 a 和 4 完全 独立 ， 且 不 确定 度 大 小 相同 G0. WAMA 


u? CR) 2 
- = 4 ER?) 


关于 什么 是 相关 的 而 什么 是 不 相关 的 仍然 存在 争议 。 不 存在 相关 这 个 假设 导致 的 最 坏 情 
况 是 对 不 确定 度 的 过 高 估计 ， 同 样 ， 由 于 重 现 性 (这 总 是 或 应 该 是 不 相关 的 ) 经 常 是 组 合 不 
确定 度 的 最 大 组 成 部 分 ， 那 么 相关 效应 的 影响 则 很 小 。 

C) 测量 结果 及 其 不 确定 度 的 报告 

在 一 次 仔细 分 析 的 过 程 中 ， 一 个 小 的 不 确定 度 是 一 个 不 错 的 结果 ， 但 如 果 它 在 测试 时 中 
不 处 于 结果 的 范围 内 ， 说 明 一 些 情 况 没 有 被 考虑 到 或 被 低估 了 。 测 试 的 重复 性 是 重要 的 实验 
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室 部 分 ， 最 终 的 合成 不 确定 度 需要 大 于 可 重复 性 。 对 于 简单 操作 而 言 ， 并 不 会 增加 大 量 的 工 
作 ， 但 对 于 一 般 水 平 的 复杂 性 事件 ， 可 能 包括 进 样 、 样 品 的 预 处 理 、 有 证 标准 物质 的 校正 ， 
合成 不 确定 度 可 能 是 实验 重复 性 的 2 一 3 倍 。 利 用 Tv (a 为 自由 度 ) 得 到 的 7 分布 在 
9096. 9592451 99%% 置 信 区 间 下 的 值 见 表 4-3。 


EXE 利用 Ti，(ca 为 自由 度 ) 得 到 的 sk 9096, 9% F 9996 置信 区 间 下 的 值 




































































分 布 在 土 to 范围 内 的 百分比 分 布 在 土 to 范围 内 的 百分比 
自由 度 90% 95% 99% EEG 9096 9596 99% 
(a =0.1) (a =0. 05) (a =0. 01) (a =0.1) (a =0. 05) (a =0. 01) 
1 6. 31 12.71 63. 66 8 1. 86 2.31 3. 36 
2 2. 92 4. 30 9. 92 9 . 83 2. 26 3. 25 
3 2.35 3.18 5. 84 10 1. 81 2. 23 3.17 
4 2.13 2. 78 4. 60 20 .72 2. 09 2. 85 
5 2. 02 2.57 4. 03 50 1. 68 2.01 2. 68 
6 1. 94 2.45 3.71 100 . 66 1. 98 2. 63 
7 1. 89 2.36 3.50 无 穷 大 1. 64 1. 96 2.58 
如 果 再 现 性 标准 偏差 sg 可 以 与 GUM 估计 相提并论 ， 那 么 可 以 用 实验 室 间 再 现 性 标准 





























裔 差 评定 不 确定 度 。 结 合 偏 移 修 正 值 ， 估 计 值 可 能 会 小 于 再 现 性 标准 偏差 .从 而 导致 包括 与 
本 次 测定 不 相关 的 系统 效应 平衡 化 。 

下 面 就 以 一 个 简单 的 例子 来 说 明 不 确定 度 的 报告 的 具体 内 容 。 例 如 ， 用 定量 核磁 共振 测 
定 某 化 学 品 的 纯度 时 ,采用 一 个 额外 的 有 证 标准 物质 峰 作为 内 标 物 ， 那 么 检测 物 的 纯度 可 由 
X (4-17) 计算 





















































P cg um crM l tes 
Pose s MM (4-17) 


M ves [ CRM 











式 中 ， 和 工分 别 表示 质量 和 峰 面积 。 假 设 式 (4-170 中 每 项 的 标准 不 确定 度 都 已 经 用 
代数 方法 进行 评估 ， 且 它们 是 相互 独立 的 ， 并 可 以 通过 式 (4-17) 计算 其 不 确定 度 的 组 合 。 
表 4-4 中 列 出 了 计算 将 用 到 的 xz 值 和 标准 不 确定 度 。 


EXE) 核磁 共振 测定 某 化 学 品 的 纯度 x 值 及 其 标准 不 确定 度 




















定量 参数 量 测 值 (x) 标准 不 确定 度 [u (x)] — 
P crm 0. 9900 0. 0050 0. 0051 
D CRM 0. 1135 0. 0006 0. 0053 
TCRM 100. 0000 0. 0300 0. 003 
i 0. 1258 0. 0006 0. 0048 
pm 101. 8500 0. 0300 0. 0003 
重 现 性 1. 0000 0. 0230 0. 0230 
P ees 0. 9097 0. 0224 0. 0246 

















由 电子 数据 表 法 所 得 表格 〈 见 数据 表 4-5) 中 的 纵 列 包括 了 计算 中 的 所 有 参数 上 且 每 一 列 
代表 其 中 一 一 个 参数 ， 因此 由 上 面 的 示例 知 表格 有 5 个 变量 (PerRM, M CRM ° Tiest ， M test * 
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TcRv)。 将 每 列 中 的 变量 依次 增加 不 确定 度 〈 如 数据 表 4-5 中 对 角 线 上 阴影 部 分 所 示 )， 而 每 
列 的 最 后 一 行 是 将 该 列 的 值 (包括 由 不 确定 度 增加 的 那个 值 ) 代 入 式 (4-17) 所 得 。 表 格 左 
边 的 那 列 是 每 个 变量 未 改变 时 的 值 ， 因 此 由 公式 就 可 得 到 测定 结果 。 在 每 列 的 最 后 一 行 ， 该 
计算 值 是 减 去 左边 第 一 列 测量 值得 到 的 ,然后 偏差 的 平方 和 的 平方 根 就 可 用 SQRT 
ee EET A 

要 注意 的 是 ， 重 复 性 精密 度 OO 已 经 包括 在 公式 中 ， 被 测 物 的 标 称 值 为 1， 标准 不 确 
定 度 的 类 型 是 重复 测量 得 到 的 标准 偏差 。 















































P creMm crM test 
P cest = Xr 


m rest I CRM 


LEES) 计算 由 定量 核磁 共振 得 到 的 样本 纯度 的 量 测 参 数值 和 不 确定 度 











P crm mM CRM I crm M test les 重 现 性 

项 目 0.9900 0. 1135 100. 0000 0. 1258 101. 8500 1. 0000 

0. 0050 0. 0006 0. 0300 0. 0006 0. 0300 0. 0230 
Perm 0. 9900 0. 9950 0. 9900 0. 9900 0. 9900 0. 9900 0. 9900 
m cRM 0. 1135 0. 1135 0. 1141 0. 1135 0. 1135 0. 1135 0. 1135 
TCRM 100. 0000 100. 0000 100. 0000 100. 0300 100. 0000 100. 0000 100. 0000 
T test 0. 1258 0. 1258 0. 1258 0. 1258 0. 1264 0. 1258 0. 1258 
Liest 101. 8500 101. 8500 101. 8500 101. 8500 101. 8500 101. 8800 101. 8500 
重 现 性 1. 0000 1. 0000 1. 0000 1. 0000 1. 0000 1. 0000 1. 0230 
Prest 0. 9097 0. 9143 0. 9145 0. 9095 0. 9054 0. 9100 0. 9307 
差 值 0. 0046 0. 0048 一 0. 0003 一 0. 0043 0. 0003 0. 0209 

uCP) 0. 0224 






































将 结果 Lue (Piest) =0. 0224] Ex (4-18) 的 计算 结果 进行 比较 ， 即 数据 表 4-4 中 的 标准 
ux) 


不 确定 度 [u Cx) ] 栏 中 的 最 后 排 数 字 0. 0224， 由 相对 结合 标准 不 确定 度 一 一 栏 中 最 后 排 数 


字 0. 0246 所 得 。 


uCPow) |? uno) |. uu] una) zCIgw l|” ulr) |? 
u. (test) = P | | | | | 
Perm m CRM La M «a Term 1 


— 0. 9097 X 4/0. 0051? + 0. 0053? + 0. 0003? + 0. 0048? + 0. 0003? + 0. 023? 














— 0. 0224 (4-18) 


实际 上 ， 它 们 只 有 在 第 六 位 小 数 上 有 区 别 。 

1. 显示 不 确定 度 分 量 

各 种 效应 的 贡献 图 是 非常 有 用 的 ， 这 个 可 以 通过 帕 累 托 (Pareto) 或 其 他 形式 的 柱状 图 
实现 。 尽 管 使 用 者 可 能 并 不 需要 这 些 图 片 ， 但 它们 是 评价 不 确定 度 概算 的 重要 工具 ， 并 且 可 
以 帮助 品质 管理 员 和 认证 机 构 进行 总 结 。 

考虑 NMR 定性 研究 的 例子 。 表 4-3 给 出 了 标准 不 确定 度 以 及 合并 不 确定 度 的 分 量 的 相 
关 标 准 不 确定 度 。 它 可 以 用 于 将 相关 标准 不 确定 度 图 片 化 ， 标 准 不 确定 度 乘 以 灵敏 度 系数 



























































L9 y/ 9 x u.Ge 或 是 后 者 用 百分比 表达 的 合并 不 确定 度 的 平方 。 图 4-7 为 一 个 水 平 的 村 


， 每 一 个 分 量 的 值 以 递减 的 方式 排列 。 


Pest I 


Er | 





[haih 











MCRM 
Porm El 
Mes, P 








效应 (x) 


Term J 
Test ] 


0.0000 | 0.0050 | 0.0100 | 0.0150 0.0200 0.0250 








cu(x) 


(a) 





limi 
TE 
HE 
HÝ 








" |o 0 0 0 0 0 0 0 0 0 | 
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贡献 /% 
(b) 
LB NMR 定量 数据 不 确定 度 分 量 的 柱状 图 


9 Pes 


9r 





Ca) 根据 总 的 不 确定 度 Pi (阴影 线 ) 得 到 的 每 一 个 分 量 的 cu(x) = 








Cb) 每 一 个 不 确定 度 分 量 的 贡献 比例 












































100 "EMT Ln o o 
80 
ə 60 
z 
E 
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0 | 
重复 性 MCRM Perm Miest TcrM les 
GEN E= NMR 的 例子 帕 累 托 图 





(柱子 :每 一 个 效应 ; Ni. 累积 不 确定 度 ) 





用 一 个 帕 累 托 图 (条 形 图 ) 展示 总 计 100% 的 效应 。 每 一 个 柱子 都 代表 了 
上 方 的 线 代 表 了 积累 效应 (图 4-8) 。 效 应 是 以 从 大 到 小 的 顺序 进行 排序 的 ， 并 





«co | 的 
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一 种 效应 ， 图 
展示 了 帕 累 托 
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原则 ， 即 20% 的 效应 导致 了 80% 的 不 确定 度 。 

2. 报道 测量 不 确定 度 

最 终 的 合成 标准 不 确定 度 ， 不论 使 用 代数 、 电 子 数据 表 还 是 其 他 的 软件 ， 都 得 到 一 致 的 
答案 ,“ 结 果 : x 单位 [和 ] uc 单位 [的 ] 标准 不 确定 度 (标准 不 确定 度 定 义 在 文献 [10] 
中 ， 相 当 于 一 个 标准 偏差 ) ”。 

方 括号 中 的 词语 可 以 省 去 或 缩写 。 笔 者 不 建议 将 加 号 或 减 号 〈 士 ) 和 合成 不 确定 度 联 
用 。 如 果 需 要 引用 扩展 不 确定 度 ， 使 用 十 是 由 于 它 可 以 定义 一 个 可 能 性 范围 。 结 果 应 该 被 记 
为 “结果 : (x UO 单位 [哪里 ] 报告 不 确定 度 是 由 [扩展 不 确定 度 也 定义 在 文献 [10] 
内 ] 包含 因子 2 [在 95% 的 置信 区 间 范 围 内 ] 计算 得 到 的 >。 尽 管 扩展 不 确定 度 的 解释 和 可 
能 性 水 平 的 含义 可 以 省 略 ， 但 必须 有 包含 因子 。 不 能 够 不 假 思 索 地 假设 一 2。 

3. 扩展 不 确定 度 

扩展 不 确定 度 是 确定 测量 结果 在 较 高 的 置信 区 间 的 量 ， 它 是 通过 合成 标准 不 确定 度 乘 以 
包含 因子 (&) 得 到 的 ， 并 用 符号 U 表示 。 尽 管 合成 标准 不 确定 度 可 以 对 测量 不 确定 度 进行 
解释 ， 就 许多 用 途 而 言 ， 而 不 仅仅 如 此 。 结 果 附 近 的 误差 线 是 非常 有 意义 的 。 如 果 合 成 标准 
不 确定 度 包含 一 个 正 态 分布 变 量 的 标准 偏差 的 分 量 ， 那么 分 布 中 的 68. 3% 的 数值 将 会 落 在 
平均 数 左右 的 1 个 标准 差 范围 内 ,分布 中 的 95.4% 的 数值 将 会 落 在 平均 数 左 右 的 2 个 标准 
差 范 围 内 (参见 图 4-2), 分布 中 的 99.7% 的 数值 将 会 落 在 平均 数 左右 的 3 个 标准 差 范围 内 。 
将 合并 标准 不 确定 度 乘 以 &(k 王 2) ， 可 以 说 被 测 变量 (等 同 于 平均 值 ) 的 值 将 会 落 在 结果 
+U 的 95%% 置 信 区 间 范 围 内 。 

当 合成 标准 不 确定 度 的 某 些 成 分 是 通过 测量 评估 的 或 用 有 限 的 自由 度 评 估 时 ， 会 出 现 一 
定 的 问题 。 从 ”次 重复 测定 的 标准 偏差 得 到 的 A 类 估计 具有 7 一 1 的 自由 度 。 通 常 ，B 类 估 
计 是 基于 具有 有 限 自 由 度 的 数据 得 到 的 ， 但 如 果 标 准 不 确定 度 是 值得 怀疑 的 ， 则 有 效 自 由 度 
可 以 通过 式 (4-19) 确定 : 
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Var =0. 52) (4-19) 
u 








AP, Au 是 不 确定 度 的 不 确定 性 。 式 (4-190. 可 以 通过 图 4-9 表示 。 
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0 10 20 30 40 50 60 70 80 
不 确定 度 的 相对 不 确定 性 /% 








EE iX (4-19) 给 出 不 确定 度 得 到 的 B 类 估计 有 效 自 由 度 





因而 ， 如 果 一 个 不 确定 分 量 的 估计 值 在 10% 的 适当 值 范 围 内 (比如 Au /u—0. D. 那么 
自由 度 为 50。 当 估计 的 不 确定 度 达到 50 儿 时， 不 确定 度 将 会 耗 尺 。 对 于 很 多 B 类 估计 而 言 ， 
在 估计 时 没有 任何 的 不 确定 度 ，Vet 是 无 限 的 。 当 确定 每 一 个 不 确定 分 量 的 自由 度 后 ， 则 可 
以 利用 韦 尔 奇 。 萨 特 斯 韦 特 CWelch-Satterthwaite) 公式 0 计算 合成 不 确定 度 的 有 效 自由 
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度 ， 将 数值 向 下 取 整 ， 


ut (y) 
aen (4-20) 
i=m u’ (y) 





i=1 Vi 


式 中 , u(y) 是 结果 y 的 合成 标准 不 确定 度 ; u 是 自由 度 为 Vi; 的 不 确定 度 的 分 量 。 式 
(4-200 中 得 到 更 多 不 确定 度 的 分 量具 有 更 少 的 自由 度 。 得 到 合成 标准 不 确定 度 的 Ver 后 ， 
包含 因子 & 是 1 分 布 在 概率 a 处 的 值 (参见 表 4-30. Æ 95% 的 置信 区 间 内 a 二 0.05， 和 置信 水 
平 为 100(1 一 a)。 

当 把 评估 测量 不 确定 度 作为 方法 验证 的 一 部 分 时 ， 需 要 做 充足 的 实验 获得 自由 度 并 保证 
不 对 包含 因子 产生 不 利 的 影响 ,通常 取 & 值 为 2。 只 要 后 面 的 现场 测量 使 用 的 是 验证 后 的 方 
法 ， 就 可 以 根据 二 2 得 到 测量 的 不 确定 度 。 在 大 部 分 情况 下 ， 扩 展 不 确定 度 可 以 通过 合成 
标准 不 确定 度 利 用 下 式 计 算得 到 : 
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式 中 ，& 一 2。 

4. 小 结 

最 后 ， 将 介绍 什么 是 测量 不 确定 度 和 它 是 如 何 与 重复 性 以 及 其 他 的 精密 测量 相关 的 。 
30nmol/L-4d-1nmol/L 中 30nmol/L 为 平均 值 ， 士 lnmol/L 为 在 95% 的 置信 区 间 内 通过 5 个 
重复 性 实验 计算 得 到 的 标准 偏差 sG = toos, X s/N5) ， 此 外 ，30nmol/L 士 lnmolL 中 的 
30nmol/L 是 一 个 单一 的 结果 ， 十 lnmol/L 是 具有 无 限 自由 度 的 扩展 不 确定 度 从 不 确定 度 概 
算 中 得 到 的 么 ? 为 了 理解 这 个 例子 ,假设 测量 水 中 的 馈 元素， 世界 卫生 组 织 (WHO) 设 定 
锅 元 素 上 限 为 27nmol/L。 在 第 一 个 例子 中 ， 正 确 的 说 法 应 该 是 “ 锅 元 素 在 测试 的 水 样 中 的 
含量 为 30nmol/L 士 lnmol/L (95% 的 置信 区 间 ， n= 二 5)。” 考 虑 到 化 学 分 析 的 结果 和 它 相 关 
的 重复 性 ， 测 试 样本 的 其 他 测定 结果 在 相同 的 条 件 下 测 得 锅 元 素 的 含量 不 超过 WHO 指南 
规定 的 27 nmol/L 的 可 能 性 为 1 : 880。 注 意 到 样本 中 锅 元 素 的 含量 不 能 得 到 其 他 的 结果 ， 
仅仅 是 当 样 本 再 分 析 时 可 能 得 到 的 结果 。 相 反 ， 如 果 引 用 了 测量 不 确定 度 ， 进 行 了 准确 的 讨 
估 ， 声 明 可 以 写 为 :“ 被 报 工 广 的 排水 样 中 锅 元 素 的 含量 30nmol/L-c-1nmol/L (nmol/L 是 
在 95% 的 置信 区 间 利 用 包含 因子 2 得 到 的 扩展 不 确定 度 ) ”考虑 到 化 学 分 析 的 结果 和 它 相 
关 的 不 确定 度 ， 测试 样本 中 人 锅 元 素 的 含量 低 于 WHO 指南 规定 的 27 nmol/L 的 可 能 性 为 1 : 
500000000。 最 大 差别 来 自 于 不 确定 度 的 自由 度 。 在 此 说 明 的 统计 概率 性 质 对 不 确定 度 的 表 
述 是 十 分 重要 的 。 

(六 ) 不 确定 度 测 量 在 实际 方法 验证 中 的 应 用 

对 于 任 一 发 表 的 标准 分 析 方 法 ， 如 在 美国 实验 和 物质 学 会 (American Society for 
Testing and Materials，ASTM)， 欧 洲 标 准 化 委员 会 (Comité Européen de Normalization, 
CEN) 或 者 是 国际 标准 组 织 (International Organization for Standardization, ISO) 发 表 的 ， 都 
要 经 过 严格 的 方法 测试 和 验证 。 而 且 ， 这 些 方法 的 测试 和 验证 一 般 还 需要 在 不 同 的 实验 室 交 
又 进行 。 这 些 实验 室 对 方法 测试 和 验证 时 要 给 出 方法 的 重复 性 〈repeatability) 和 再 现 性 
(reproducibility) (以 后 我 们 会 对 这 两 个 概念 进行 更 深入 的 讨论 )， 方 法 的 偏差 及 在 不 同 环境 
下 的 方法 的 测量 不 确定 度 。 而 且 ， 这 些 实验 室 一 般 都 要 求 是 经 过 严格 挑选 的 。 

根据 国际 惯例 ， 一 个 方法 的 测试 和 验证 一 般 要 求 在 8 个 实验 室 进 行 ， 当 然 ， 还 有 人 认 
为 ， 如 要 建立 方法 的 再 现 性 最 好 有 15 个 实验 室 参 加 。 由 于 大 多 数 方法 都 是 在 一 个 浓度 范围 
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中 应 用 ， 至 少 需要 对 5 一 6 个 不 同 浓度 的 样本 所 展开 的 范围 进行 分 析 。 而 且 ， 送 实验 室 验证 
的 必须 是 双 份 样 ， 即 要 求 是 相同 浓度 或 稍 有 不 同 浓度 的 重复 样 (“Youden” 样 )。 

一 个 方法 的 测试 和 验证 就 是 要 建立 重复 性 和 再 现 性 的 概念 ， 即 要 在 每 个 实验 室 进 行 重复 
性 试验 ， 一 般 来 说 ， 重 复 性 试验 就 是 要 得 到 对 一 给 定 的 测量 目标 进行 一 系列 的 测定 所 得 结果 
的 变化 幅度 ， 应 该 是 在 : 巴 同 一 个 操作 者 ;外 采用 同样 的 测量 设备 ; 思 在 同一 个 实验 室 ; 
@ 在 一 个 特定 的 时 间 。 而 再 现 性 (reproducibility) 则 是 指 对 一 给 定 的 测量 目标 进行 一 系列 
的 测定 所 得 结果 的 变化 幅度 ， 但 它们 必须 是 在 : 不 同 的 操作 者 操作 ; 包 采 用 不 同 的 测量 设 
备 ; 名 不 在 同一 实验 室 ; 由 在 不 同 的 时 间 。 图 4-10 示 出 了 一 个 方法 在 测试 和 验证 过 程 中 的 
重复 性 和 再 现 性 ， 不 同 实 验 室 的 偏差 及 方法 的 偏差 关系 示意 图 。 从 图 4-10 可 以 看 出 ， 各 个 
实验 室 重复 性 试验 的 不 确定 度 一 定 要 小 于 再 现 性 试验 的 不 确定 度 ， 而且， 最 好 应 处 于 再 现 性 




































































的 不 确定 度 的 范围 之 内 。 再 现 性 的 不 确定 度 要 显著 大 于 重复 性 的 不 确定 度 ， 这 是 因为 





/.2 2 
Sg SVs; FSL 





(4-22) 


式 中 ，sR 为 再 现 性 的 标准 偏差 (reproducibility standard deviation); ,为 实验 室内 的 重 
复 性 标准 偏差 (repeatability standard deviation); si 为 实验 室 间 的 标准 偏差 (between-labo- 














ratory standard deviation) 。 





方法 偏差 























sr= 再 现 性 











实验 室 A 的 偏差 





不 同 实验 室 的 检测 结果 
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s= 重 复 性 
实验 室 A 的 均值 实验 室 B 的 均值 
结果 
接受 的 参考 值 


一 个 方法 的 测试 和 验证 过 程 中 的 重 现 性 和 再 现 性 ， 
不 同 实验 室 的 偏差 及 方法 的 偏差 关系 示意 图 


TS d ” 量 测 误差 与 质量 控制 


‘个 实验 室 的 检测 结果 


= 


如 前 所 述 ， 分 析 化 学 中 遇 到 的 化 学 量 测 一 般 与 物理 中 有 关 长 度 、 质 量 等 的 直接 测量 不 





同 ， 大 都 是 通过 复杂 仪器 的 测量 而 间接 获得 ， 所 得 数据 的 解析 和 化 学 信息 





的 提取 将 上 








物理 的 


直接 量 测 要 难得 多 ， 所 以 ， 在 分 析 化 学 中 ， 对 化 学 量 测 误差 的 分 析 一 直 是 一 个 备 受 重视 的 问 
题 ， 此 外 ， 又 因为 分 析 化 学 发 展 的 各 种 分 析 方法 ， 都 得 满足 社会 对 分 析 结 果 质 量 的 要 求 ， 对 



































分 析 结 果 的 可 徘 性 的 要 求 也 越 来 越 高 。 特 别 是 近年 来 ， 随 着 经 济 国际 化 的 发 
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有 关 化 学 分 析 结 果 主 要 是 来 自 工 业 产 品 的 检验 需求 的 话 ， 那么 ， 现 在 化 学 分 析 已 完全 进入 了 
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国际 贸易 检测 的 方方面面 ， 已 成 为 国际 贸易 交流 中 一 个 十 分 重要 的 环节 和 门槛 ， 所 以 ， 分 析 
测量 中 数据 的 统计 特性 和 质量 控制 越 来 越 成 为 一 个 备 受 关注 的 问题 。 

分 析 结 果 的 质量 控制 当然 是 与 化 学 量 测 的 误差 特性 密切 相关 的 ， 所 以 ， 有 必要 在 讨论 分 
析 结 果 的 质量 控制 之 前 对 分 析 化 学 中 量 测 误差 的 特性 ， 特 别 是 对 一 些 分 析 化 学 中 涉及 量 测 误 
差 的 特有 的 基本 概念 给 出 必要 的 说 明 。 下 面 对 这 些 基本 概念 给 出 简要 介绍 。 


一 、 量 测 误差 与 不 确定 性 


现代 量 测 大 都 在 规避 传统 的 有 关 准 确 和 真实 值 的 概念 。 传 统 的 这 些 概念 都 建立 在 一 个 不 
真实 的 假设 上 ， 即 一 定 存在 一 个 隐藏 在 量 测 系统 中 的 真实 值 ， 这 个 值 在 原则 上 可 通过 足够 数 
量 和 足够 认真 的 测量 得 到 。 事 实 上 ， 不 确定 性 只 能 描述 一 范围 ,在 此 范围 内 ， 测 量变 量 将 可 
被 有 理由 地 测 出 。 一 个 真实 值 只 能 被 定义 ， 实际 上 符合 定义 的 有 多 个 数值 。 因 此 ， 对 不 确定 
性 测量 的 估计 ， 不 是 一 个 备 受 指责 的 练习 ， 而 是 一 个 刻意 设计 的 过 程 ， 通 过 此 过 程 ， 可 以 对 
各 种 影响 测量 的 因素 加 以 考虑 ， 以 增进 对 量 测 结果 的 理解 。 因 为 采用 了 统计 学 进行 处 理 ， 可 
以 很 容易 区 分 随机 误差 与 系统 误差 ， 随 机 误差 的 标准 偏差 可 通过 重复 测量 来 测 得 ， 而 系统 误 
差 由 于 是 单 边 偏差 ， 所 以 亦 可 通过 测量 估计 出 来 。 

不 确定 性 与 误差 是 两 个 很 不 相同 的 概念 ， 不 能 将 它们 混 消 。 一 般 来 说 ,误差 (error) 
是 指 单 个 量 测 值 与 真实 值 之 间 的 差 值 。 由 于 真实 值 实际 是 无 法 得 到 的 ， 所 以 ， 从 以 上 的 讨论 
可 知 ， 误 差 也 不 可 以 精确 得 到 。 一 般 来 说 ， 误 差 可 分 为 随机 误差 和 系统 误差 。 

误差 本 身 有 正 负 ， 测 定 值 大 于 真 值 时 ,误差 为 正 值 ， 表示 结 果 偏 高 ; 反之 ,误差 为 负 
值 ， 表 示 结 果 偏 低 。 按 照 误差 的 基本 性 质 和 特性 ， 可 分 为 系统 误差 、 随 机 误差 和 过 失误 差 三 
大 类 。 

(一 ) 随机 误差 

随机 误差 (random error) ， 又 称 偶然 误差 ， 是 一 种 由 一 些 不 可 避免 的 偶然 原因 而 造成 
的 量 测 误差 ， 是 不 可 控 的 ， 如 电 品 声 和 实验 室 的 热效应 等 ， 所 以 ， 它们 是 不 可 预测 的 误差 ， 
想 通 过 自身 努力 来 降低 单 次 测量 的 随机 误差 是 不 可 能 的 。 一 般 来 说 ， 随 机 误差 具有 以 下 

(D 波动 性 、 可 变性 、 无 法 避免 

Q 符合 统计 规律 : 一般 都 服从 正 态 分 布 规律 ， 即 正 误 差 和 负 误 差 出 现 的 概率 相等 ， 小 
误差 出 现 的 概率 大 ， 大 误差 出 现 的 概率 小 。 值 得 指出 的 是 ， 减 小 随机 误差 的 方法 就 是 增加 平 
行 测定 次 数 。 平 行 测 定 次 数 愈 多 ， 平 均值 愈 接近 真实 值 。 

(二 ) 系统 误差 

系统 误差 (systematic error) 一 般 是 由 某 种 固定 原因 产生 ， 在 每 次 测定 过 程 中 都 会 重复 
出 现 。 这 种 误差 与 随机 误差 不 同 ， 它 不 可 通过 多 次 测量 来 降低 ， 但 可 通过 一 定 的 办 法 加 以 校 
正 。 例 如 ， 在 分 析 化 学 实验 中 ,经常 不 加 被 测 物 (空白 )， 以 确定 反应 试剂 对 被 检测 变量 的 
影响 。 所 以 ， 我 们 都 是 先 对 样本 或 标准 测量 所 测 得 的 值 减 去 空白 值 ， 然 后 再 计算 最 终结 果 。 
如 不 对 样本 测量 所 测 得 的 值 减 去 空白 值 ， 就 有 可 能 引入 系统 误差 。 

系统 误差 的 特点 是 具有 单 向 性、 重复 性 ， 理 论 上 可 测 。 一 般 来 说 ， 系 统 误 差 可 分 为 以 下 
几 类 : 中 方法 误差 。 由 于 分 析 方 法 本 身 不 完善 而 引起 的 误差 ， 例 如 重量 分 析 中 沉 演 的 溶解 
等 。@ 仪 器 误差 。 由 于 仪器 本 身 不 够 精密 所 引起 的 误差 ， 例 如 天 平 两 臂 不 等 长 ， 滴 定 管 、 容 
量 瓶 、 移 液 管 的 容积 不 准确 等 。 试剂 不 纯 引 起 的 误差 。 由 于 试剂 纯度 达 不 到 实验 要 求 所 引 
起 的 误差 ， 例 如 试剂 不 纯 、 所 用 去 离子 水 不 符合 规定 等 。 由 操作 误差 。 由 于 分 析 人 员 掌 握 方 
法 和 测定 条 件 的 差异 而 引起 的 误差 ， 例 如 对 终点 的 颜色 变化 程度 判断 不 一 致 引 起 的 误差 。 
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可 以 采用 以 下 的 方法 来 消除 系统 误差 中 对 照 试验 ， 这 是 检验 系统 误差 的 最 有 效 方法 。 
即 用 已 知 准确 含量 的 标准 实物 与 被 测试 样 用 同样 的 分 析 方 法 进行 操作 ， 以 便 对 照 : 四 仪器 校 
正 ， 为 保证 测量 的 准确 度 ， 仪 器 使 用 前 必须 经 过 校正 ;四 空白 试验 ， 由 试剂 、 器 亚 和 环境 引 
人 杂质 造成 的 系统 误差 ， 可 用 空白 试验 予以 减少 或 消除 ; @ 方 法 校正 ， 某 些 分 析 方 法 的 系统 
误差 可 用 化 学 分 析 法 直接 校正 ， 或 改进 分 析 方 法 。 

(三 ) 过 失误 差 

过 失误 差 (gross error) 是 由 于 人 为 操作 失误 引起 的 误差 。 例 如 器 思 不 清洁 、 试 剂 加 
错 、 滴 定 刻 度 读 错 、 记 录 错 、 算 错 等 引起 的 误差 。 这 类 误差 只 有 通过 分 析 化 学 实验 室 的 规范 
管理 来 加 以 克服 。 


二 、 化 学 测量 中 数据 特征 描述 


(一 ) 精密 度 、 偏 差 和 准确 | 

精密 度 、 偏 差 和 准确 度 在 化 学 量 测 不 确定 性 的 评价 中 都 是 十 分 重要 的 概念 ， 在 此 ， 我 们 
对 它们 作 必 要 介绍 。 

1. 精密 度 

精密 度 (precision) 是 在 规定 的 实验 条 件 下 ， 独 立 的 量 测 结果 之 间 的 吻合 度 。 精 密度 
告诉 我 们 重复 测定 的 结果 将 有 多 靠近 。 
的 影响 程度 。 精 密度 一 般 可 用 标准 偏差 (standard deviation, s) 或 是 相对 标准 偏差 
(relative standard deviation, RSD) 来 表示 ， 有 时 也 可 采用 变异 系数 来 表征 (coefficient of 
variation，CV)。 可 以 说 ， 如 果 分 析 工 作者 的 分 析 过 程 操作 不 存在 过 失误 差 ， 那么 ,分 析 方 
法 的 精密 度 将 主要 与 随机 误差 相关 ， 图 4-11 示 出 了 精密 度 与 偏差 (参见 下 一 节 ) 关系 的 示 
意图 ， 从 图 中 可 以 看 出 ， 偏 差 反 映 的 是 分 析 结 果 与 目标 值 的 关系 ， 而 精密 度 反 映 的 是 独立 的 
量 测 结果 之 间 的 吻合 度 和 相近 程度 ， 实 际 就 是 一 系列 量 测 结果 的 散布 度 的 度量 。 分 析 结 果 的 
精密 度 是 表征 分 析 方 法 优 劣 的 重要 指标 。 
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改善 精密 度 一 一 ~ 
精密 度 与 偏差 的 关系 







































































































































































降低 偏差 一 一 一 

















此 外 ， 对 于 那些 由 于 不 同 实验 室 的 分 析 工 作 人 员 的 操作 和 不 同 分 析 仪器 等 方面 所 带 来 的 
分 析 结 果 不 精 密 的 原因 ， 还 可 通过 改变 测量 条 件 对 分 析 方 法 的 精密 度 进行 研究 。 图 4-12 就 
示 出 了 改变 测量 条 件 对 方法 精密 度 的 影响 ， 随 着 分 析 次 数 的 增加 与 分 析 范围 的 扩 大 ， 结 果 精 
密度 也 随 之 变化 。 值 得 提出 的 是 ， 通 过 分 析 次 数 与 分 析 范 围 的 改变 ， 还 可 对 分 析 方 法 的 重复 
性 与 再 现 性 的 改变 情况 进行 估计 。 



































2. 偏差 
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实验 室 间 测量 


批 内 测量 (重复 





单 次 测量 
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t 再 现 性 
改变 测量 条 件 对 方法 精密 度 的 研究 

















m2 (bias) 是 指 一 系列 被 测定 物 的 平均 量 测 值 与 实验 参考 标准 值 之 间 的 差 值 ， 其 值 的 


大 小 将 与 系统 误差 的 大 小 与 方向 有 关 。 增 加 测量 的 次 数 可 以 减少 随机 效应 (提高 精度 )， 但 
系统 的 影响 (偏差) 不 能 被 降低 ， 后 者 必须 消除 或 考虑 。 偏 差 可 以 说 是 系统 误差 的 一 种 度 









































量 ， 它 表征 的 是 一 组 特定 测量 结果 的 平均 值 与 参考 标准 值 之 间 的 离 差 程度 ， 而 精确 度 表征 的 



































则 是 一 系列 量 测 结果 的 散布 度 的 度量 ， 即 单个 测量 值 与 均值 的 离散 程度 ， 而 与 该 均值 是 否 接 


近 真 实 值 无 关 。 


整体 偏差 通常 由 阁 干 原因 导致 。 干 扰 只 是 测量 偏差 的 一 个 潜在 来 源 。 引 起 偏差 的 其 他 原 








因 包 括 以 下 几 个 方面 : 
设备 偏差 ， 如 空白 信号 或 非 线 性 ; 从 样品 基质 中 对 分 析 物 的 不 完全 回收 。 因 此 ， 存 在 多 种 偏 



































基体 效应 (如 酸 强 度 或 床 度 的 变化 可 以 增强 或 抑制 测量 信号 ; 测量 

















差 效应 的 影响 ， 它 们 既 可 能 是 正 向 的 又 可 能 是 负 向 的 。 有 些 影响 与 被 分 析 的 样本 相关 ， 有 些 
则 是 与 方法 相关 ， 一 些 特别 的 还 可 能 与 工作 实验 室 的 条 件 相 关 。 单 个 的 影响 可 以 单独 研究 ， 
但 一 般 地 应 该 是 用 整体 偏差 作为 测量 偏差 。 








测量 偏差 是 通过 使 用 一 个 被 验证 的 方法 ， 对 指定 的 参考 物质 进行 测量 ， 继 而 通过 比较 涡 
量 的 平均 值 与 标识 的 参考 值 来 确定 。 重 复 测量 的 次 数 是 分 析 所 需 精 度 ， 即 重复 测量 的 标准 











Ær 











28 Go 和 偏差 水 平 (0) 的 函数 ， 下 面 的 方程 给 出 了 一 个 有 用 的 近似 计算 式 : 








n —13 X (5/8)? 十 2 








根据 “拇指 规则 ”， 至 少 要 有 7 次 重复 测量 才 行 ， 这 实际 是 依据 偏差 约 为 重复 标准 偏差 
的 两 倍 得 出 的 。 如 果 该 方法 在 浓度 方面 有 很 大 的 范围 和 /或 基质 类 型 ， 我们 应 该 使 用 一 些 独 
立 的 参考 材料 覆盖 预期 的 测量 范围 和 样本 类 型 。 一 个 理想 的 参考 物质 应 该 是 经 认证 的 参考 物 
质 (CRM)， 是 尽量 贴近 样品 的 形式 、 基 质 组 成 和 分 析 物 浓度 的 样本 。 如 果 匹 配 的 基体 标准 
物质 可 以 容易 得 到 ， 它 们 应 该 被 用 来 评估 偏差 。 但 理想 的 标准 物质 一 般 难以 找到 ， 所 以 ， 采 
用 基质 参考 物质 与 “加 标 实验 ” (spiking experiments) 相 结合 成 为 最 好 的 选择 。 实 验 涉 及 
在 实际 样品 的 分 析 前 后 都 添加 已 知 量 的 纯 分 析 物 。 对 于 无 偏差 的 方法 ， 两 者 之 间 的 差异 结果 















































必 将 等 于 在 测量 的 不 确定 范围 内 增加 的 分 析 物 ， 如 图 4-13 所 示 。 





将 加 标 物 加 入 自然 样本 中 ， 只 有 当 加 标 物 与 样本 物质 处 于 平衡 时 ， 重 量 加 标 方 能 给 出 可 
靠 的 估计 偏差 。 例 如 ,天然 的 分 析 物 可 以 在 基质 中 紧密 地 结合 ， 而 被 加 标的 分 析 物 则 可 能 松 
散 地 吸附 在 样品 颗粒 表面 。 此 外 ， 平 衡 可 以 在 高 浓度 达到 ， 而 这 样 的 情况 可 能 不 适合 痕 量 水 
平 。 虽 然 如 果 样 品 完全 溶解 ， 这 就 不 是 一 个 问题 ， 但 如 果 方 法 必须 涉及 从 固体 中 提取 的 话 ， 











就 可 能 出 现 偏差 。 
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如 果 R4 是 加 标的 量 ，Rs-Rs= 偏 差 


通过 加 标 法 评价 偏差 的 示意 图 


(BR | 加 标 测量 值 
R; 








应 该 确保 在 加 标 时 基质 的 组 成 不 改变 ， 而 且 加 入 的 物质 的 浓度 与 分 析 样 品 中 的 分 析 物 的 
浓度 尽量 靠近 。 平 衡 条 件 的 建立 是 很 重要 的 ， 这 可 以 通过 将 加 入 的 物质 与 样品 尽量 多 接触 
( 少 则 为 几 个 小 时 ， 多 则 可 以 放置 一 夜 ) 来 建立 ， 同 时 ， 要 注意 物质 性 能 的 影响 ， 如 颗粒 大 


小 等 。 此 外 ， 测 量 偶 差 也 可 以 通过 比较 方法 来 得 到 。 我 们 可 以 将 所 月 







































































方法 所 得 结果 与 一 个 已 


知 偏差 的 参考 方法 的 结果 来 进行 比较 。 这 种 方法 与 采用 参考 物质 的 方法 类 似 。 








3. 准确 度 














准确 度 (accuracy) 表征 的 是 真实 值 与 量 测 值 之 间 的 吻合 程度 。 
的 性 质 。 它 告诉 我 们 单个 测量 结 
































层 效应 。 图 4-14 示 出 了 准确 度 、 精 密度 与 











准确 度 是 单个 测量 结果 
果 与 真实 值 的 接近 程度 ， 所 以 ， 它 包含 了 精密 度 与 偏差 的 两 
局 差 之 间 的 关系 。 可 以 看 出 ， 在 





图 4-14 Ca) 和 图 


4-14 (b) 中 ,分 析 结 果 的 准确 度 高 ， 没 有 偏差 .在 图 4-14 (bo 中 ， 准 确 度 就 比 图 4-14 Ca) 











较 高 ( 量 测 结果 的 散布 度 低 )， 所 以 ， 对 于 每 个 在 




















比 图 4-14 (a)〉 中 的 分 析 结 果 高 。 而 在 图 4-14 Co) 和 图 





























图 4-14 Cb) 中 的 分 析 结 果 ， 其 准确 度 就 
4-14 (dD 中 ,分 析 结 果 的 偏差 都 较 

















大 ， 注 意 到 在 图 4-14 (d 中 ,分 析 结 果 的 散布 度 虽 然 低 ,但 其 准确 度 并 不 比 图 4-14 Co) 
好 ， 所 以 ,准确 度 与 精密 度 的 概念 是 有 显著 差异 的 。 
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(d) 


准确 度 、 精 密度 与 偏差 之 间 的 关系 示意 图 
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(CO 重复 性 与 再 现 性 

在 此 ， 还 要 对 化 学 测量 中 两 个 重要 的 概念 ， 即 重复 性 (repeatability) 与 再 现 性 Crepro- 
ducibility) ， 进 行 介 绍 。 这 两 个 概念 容易 混淆 ， 必 须 把 它们 之 间 的 区 别 搞 清 楚 。 实 际 上 ， 这 
两 个 概念 都 与 精密 度 相 关 ， 是 反映 分 析 方 法 结果 的 量 测 不 确定 度 程度 的 概念 。 重 复 性 是 对 分 
析 方 法 短期 量 测 结果 的 变异 程度 的 表征 ， 它 在 评价 建立 符合 方法 的 性 能 标准 时 十 分 有 用 ,但 
却 不 能 表征 分 析 方 法 量 测 结果 的 长 期 效应 ; 而 再 现 性 则 是 一 个 可 表征 量 测 结 果 的 长 期 效应 的 
概念 。 它 通常 是 通过 在 不 同 的 实验 室 、 不 同 的 时 间 和 环境 的 条 件 下 进行 同一 方法 的 测量 的 
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一 般 说 来 ， 实 验 室内 再 现 性 (intermediate precision or within-laboratory reproducibility) 可 
由 单个 实验 室 的 一 段 时 期 的 分 析 结 果 给 出 表征 ， 而 不 同 实验 室 间 的 再 现 性 (inter-laboratory 
reproducibility). 一 般 都 需要 进行 几 个 月 的 测试 和 研究 ， 由 于 测量 条 件 变化 大 ， 所 以 ， 它 也 
必然 会 产生 较 大 的 量 测 散布 度 ， 故 它 应 比重 复 性 大 两 到 三 倍 。 

重复 测量 的 次 数 越 多 ， 对 其 估计 的 置信 和 度 会 越 高 。 但 如 果 已 超过 15 次 重复 样 ， 再 继续 
增加 次 数 效果 就 不 显著 了 。 此 外 ， 在 进行 测量 时 ， 需 要 保证 测量 实验 的 独立 性 ， 即 不 相关 。 
所 以 ， 一般 都 要 求 测量 样 具 有 独立 性 的 样本 应 该 被 首先 称 量 、 溶 解 及 提取 出 来 ， 这 是 因为 如 
只 采用 同一 已 配 好 的 溶液 来 进行 重复 测量 ,很 难 满足 测量 样本 具有 独立 性 的 要 求 。 最 后 ， 需 
要 考虑 的 是 重复 测 样 所 需 的 最 小 测量 次 数 ， 一 般 说 来 ,在 7 一 15 个 独立 样本 中 进行 两 次 (三 
次 更 好 ) 测量 应 该 是 可 以 接受 的 最 小 测量 次 数 ， 因 为 在 不 同 实验 室 和 不 同时 间 所 进行 的 量 测 
亦 不 易 完 成 。 在 此 ， 可 以 说 只 要 测量 数据 的 方差 在 统计 上 没有 显著 性 的 不 同 ， 就 可 将 不 同 实 
验 室 和 不 同时 间 所 得 的 量 测 数据 合并 起 来 ， 共 同 计算 它们 的 标准 偏差 上 。 

在 此 ， 再 进一步 强调 一 下 ， 重 复 性 是 指 对 一 给 定 的 测量 目标 进行 一 系列 的 测定 结果 的 变 
化 幅度 的 一 种 表征 ， 它 们 必须 是 在 : 呈 在 同一 个 操作 者 ;外 采用 同样 的 测量 设备 ;，@ 在 同一 
个 实验 室 ; @ 在 一 个 特定 的 时 间 所 进行 的 测定 所 得 分 析 结 果 的 产物 。 而 再 现 性 则 是 指 在 不 同 
地 方 对 一 给 定 的 测量 目标 ， 进 行 一 系列 的 测定 结果 的 变化 幅度 的 一 种 表征 ， 它 们 必须 是 在 : 
不同 的 操作 者 操作 ; 书 采 用 不 同 的 测量 设备 ;不 在 同一 实验 室 ; 电 在 不 同 的 时 间 所 进 
行 的 。 

另外， 重复 性 与 再 现 性 (方法 精密 度 ) 还 与 很 多 因素 〈 即 分 析 方 法 操作 条 件 ) 密切 相 
关 ， 如 实验 室温 度 的 变化 、 重 复 测 量 的 次 数 、 分 析 基 质 〈 化 学 试剂 ) 的 使 用 等 ， 都 会 影响 分 
析 方 法 的 测量 精密 度 。 所 以 ， 还 有 必要 对 一 些 有 代表 性 的 影响 分 析 方 法 测量 精密 度 的 参数 进 
行 测 定 。 

此 外 ， 测 量 精密 度 (或 者 是 重复 性 与 再 现 性 ) 还 是 测量 样本 浓度 的 函数 。 可 以 这 样 假 
设 ， 相 对 标准 偏差 RSD) 或 变异 系数 (CV) 在 一 个 较 宽 的 范围 为 常数 ， 但 标准 偏差 
(standard deviation, SD) 不 是 这 样 。 表 4-6 示 出 了 样本 所 含 浓 度 与 精密 度 的 关系 。 从 表 4- 
6 中 可 以 看 到 ， 变 异 系数 可 接受 的 水 平 在 不 同 的 浓度 测量 范围 内 是 不 同 的 。 这 个 情况 在 图 4- 
15 中 给 出 了 较 好 的 显示 中 。 从 图 4-15 可 以 看 出 ， 随 着 浓度 的 降低 ， 不 同 实 验 室 变 蜡 系 数 
(CCV) 将 变 得 越 来 越 大 。 此 外 ， 也 可 以 用 式 〈4-23)049 来 表征 精密 度 与 浓度 的 关系 : 


0. 22c c «1.2 X107 
sR —40.02:9895. 1.2 X 1077 <c <0. 138 (4-23) 
0. 01c9 5 c Z2» 0. 138 


式 中 ，sR 表 示 再 现 性 的 标准 偏差 (reproducibility standard deviation) , 
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采用 式 ss =0.02c ”计算 所 得 的 再 现 性 的 标准 偏差 与 浓度 关系 示意 图 


LE 样本 所 含 浓度 水 平 与 精密 度 (再 现 性 ) 的 关系 





含量 /(ug/kg) CV/% 含量 / (hg/kg) CV/% 
1 (45. 3) 0 100 23 
10 (32) 1000 16 














O 浓度 低 于 100ug/kg 时 ,方程 (4-23) 的 估算 值 将 变 得 不 可 接受 得 高 。 





三 、 化 学 测量 的 质量 保证 与 质量 控制 


化 学 测量 的 质量 保证 与 质量 控制 看 起 来 像 一 个 技术 问题 ， 但 实际 上 此 问题 涉及 面 是 很 广 
泛 的 ， 在 很 多 方面 都 与 管理 有 关 。 在 此 ， 只 从 分 析 化 学 的 技术 角度 出 发 来 对 此 进行 讨论 ， 必 
要 时 也 将 介绍 一 些 必 要 的 质量 控制 中 所 需 的 管理 组 织 与 程序 。 

(一 ) 质量 管理 系统 、 质 量 保证 与 质量 控制 

在 讨论 质量 管理 系统 、 质 量 保证 与 质量 控制 这 三 个 重要 概念 之 前 ， 有 必要 对 质量 的 定义 
给 出 必要 介绍 。 实 际 上 ， 要 给 质量 下 一 个 严格 的 科学 定义 并 不 容易 ， 所 以 在 实际 工作 中 它 存 
在 多 个 不 同 的 定义 。 下 面 列 出 了 几 个 常用 的 定义 : 

。 给 予 用 户 的 一 个 产品 或 者 是 服务 ， 这 种 服务 需 满足 用 户 的 特殊 要 求 并 能 及 时 给 出 。 

。 满足 客户 的 需求 。 

。 符合 特殊 目的 的 服务 。 

国际 标准 化 组 织 (International Organization for Standardization, ISO) 给 出 的 质量 的 
定义 是 : 

。 一 种 产品 或 服务 的 整体 性 特征 ， 它 能 满足 规定 或 隐 含 的 需求 (ISO 1994)。 

。 一 组 包含 固有 “特性 ”和 满足 “要 求 ”的 服务 (ISO 2005),“ 特 性 ”是 区 别 的 特点 ， 
“要 求 ” 是 已 陈述 的 需要 或 期 望 ， 一 般 是 隐 含 的 或 强制 性 的 。 

很 明显 ， 质 量 就 是 要 满足 客户 的 需求 。 有 了 这 样 的 了 解 ， 下 面 就 对 质量 管理 系统 、 质 量 
保证 与 质量 控制 这 三 个 重要 概念 给 出 介绍 。 

一 个 质量 管理 系统 (quality management system). 实际 包括 了 一 整套 相关 程序 和 责任 ， 
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并 有 专门 的 组 织 将 所 有 化 学 量 测 所 需 的 仪器 设备 、 资 源 及 工作 人 员 组 织 在 一 起 ， 以 达到 有 效 
率 地 进行 各 类 所 需 工 作 。 而 且 ， 一 个 质量 管理 系统 还 必须 得 到 国家 或 国际 的 正式 承认 和 审查 
( 计 )， 也 必须 是 建立 在 国际 公认 的 标准 之 上 的 组 织 。 这 样 ， 才 能 真正 满足 各 种 用 户 和 各 类 国 
际 相 应 组 织 的 需求 。 一 个 较 好 的 质量 管理 系统 ， 对 很 多 方面 都 得 加 以 关注 ， 如 质量 政策 的 陈 
述 、 实 验 室 的 总 体 管理 和 组 织 、 角 色 与 责任 、 质 量 控制 过 程 、 文 件 控制 与 报告 、 审 查 与 审 
计 、 评 价 与 转 包 等 。 所 以 ， 一 个 质量 管理 系统 实际 是 一 个 要 求 十 分 全 面 的 、 足 以 面 对 和 满足 
客户 各 种 需求 的 一 个 完整 系统 。 如 简要 地 从 技术 上 说 ， 质 量 管理 系统 还 应 该 是 质量 管理 、 质 
量 控制 和 质量 保证 的 一 个 组 合体 。 质 量 控制 和 质量 保证 应 该 是 一 个 实验 室 管理 系统 的 两 个 重 
要 元 素 。 一 般 说 来 ， 质 量 控制 和 质量 保证 是 两 个 很 容易 混 消 的 概念 ， 而 且 它 们 还 是 相互 交织 
与 相互 相关 的 。 有 关 它 们 的 定义 可 在 国际 标准 组 织 (International Organization for Stand- 
ardization, ISO) 的 标准 中 找到 05]，。 

质量 保证 (quality assurance). 是 质量 管理 系统 的 一 部 分 ， 主 要 为 质量 管理 系统 提供 质 
量 需 求 可 以 完成 的 信心 。 质 量 保证 所 能 做 的 一 切 都 要 在 质量 管理 系统 中 很 好 地 规划 好 并 系统 
协调 地 完成 ， 另 外 ， 它 们 还 需要 被 展示 出 来 ， 以 达到 可 为 完成 质量 要 求 的 分 析 服务 提供 恰当 
的 证 据 和 信心 。 所 以 ， 实 际 上 质量 保证 还 应 该 包括 必需 的 组 织 上 的 基础 设施 ， 它 可 以 支持 全 
部 可 靠 的 分 析 测 量 。 质 量 保 证 包含 一 系列 的 活动 ， 包 括 人 员 培 训 、 建 立 记 录 、 实 验 室 环境 建 
设 、 存 储 设备 以 保证 样本 、 试 剂 和 溶液 的 总 体 性 保存 、 分 析 仪 器 的 校准 、 使 用 和 技术 效 验 及 
各 种 文档 的 保存 与 发 送 等 。 

质量 控制 (quality control) 也 是 质量 管理 的 一 部 分 ， 主 要 为 完成 质量 需求 提供 信心 ， 
如 为 完成 和 校 验 质量 要 求 提供 的 空白 样 分 析 、 标 准 样 分 析 。 质 量 控制 分 为 两 种 ， 即 内 部 质量 
控制 (internal quality contro 和 外 部 质量 控制 (external quality control) ， 内 部 质量 控制 
为 实验 室 管理 提供 信心 ， 而 外 部 质量 控制 则 是 为 顾客 提供 信心 。 

内 部 质量 控制 是 由 实验 室 工 作 人 员 进 行 量 测 操作 以 保证 为 质量 控制 提供 证 据 和 维持 实验 
室 系统 提供 可 接受 的 满意 分 析 量 测 结果 的 提供 保证 。 而 外 部 质量 控制 则 主要 为 验证 不 同 实 验 
室 的 量 测 是 否 一 致 和 可 靠 ， 以 及 为 可 比较 性 提供 证 据 。 实 验 室 正式 或 非 正 式 参加 的 各 项 实验 
室 之 间 的 比较 就 是 完成 此 任务 。 正 式 的 实验 室 之 间 的 比较 被 称 为 能 力 验 证 测试 (proficiency 
testing. PT), 

(二 ) 不 同 的 质量 标准 与 它们 的 主要 特征 

不 同 的 国家 和 国际 组 织 都 发 展 了 自己 的 质量 标准 。 一 般 来 说， 对 分 析 化 学 实验 室 的 要 求 
是 随 其 规模 、 类 型 和 其 分 析 目 的 而 变化 的 。 所 以 ， 不同 实验 室 也 将 有 其 不 同 的 具体 标准 。 

国际 标准 公布 的 质量 管理 系统 (the international standard. ISO 9001: 2000, quality 
management systems) 就 是 一 个 整体 标准 ， 它 可 应 用 于 所 有 类 型 的 无 论 大 小 的 组 织 [16] 。 此 
标准 主要 解释 了 质量 管理 系统 组 织 的 所 需要 求 : 中 需要 具有 可 提供 满足 用 户 和 各 种 规范 要 求 
的 一 致 性 的 服务 能 力 ; 外 通过 有 效 地 运用 该 系统 达到 提高 客户 满意 度 的 目标 ， 包 括 不 断 地 改 
善 该 系统 以 保证 符合 用 户 和 各 种 规范 要 求 的 各 项 过 程 。 如 果 该 组 织 可 满足 上 述 要 求 ， 它 应 该 
去 寻求 第 三 方 来 给 以 鉴定 证 书 。 鉴 定论 证 将 是 一 个 过 程 ， 该 过 程 应 由 一 个 外 部 的 、 独 立 的 审 
计 组 织 (第 三 方 ) 为 一 个 产品 、 过 程 或 服务 给 出 书面 的 保证 ， 说 明 该 组 织 可 以 保证 达到 所 需 
的 各 种 特殊 要 求 !'57J。 独 立 的 审计 组 织 第 三 方 证 书 ， 如 在 英国 ， 可 由 英 联邦 标准 (BSI 
British standards)、 联 合 王 国 的 国家 标准 (UK national standards body) 给 出 ， 如 对 国际 而 
言 ， 则 可 由 英 联 邦 管理 系统 或 劳 埃 德 质 量 保证 注册 公司 (BSI management systems or lloyds 
register of quality assurance) 给 出 。 此 标准 不 检查 组 织 之 间 的 竞争 ， 但 主要 关注 质量 过 程 的 
控制 。 
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另 一 个 国际 标准 CISO/IEC 17025: 2005. general requirements)， 是 为 测试 和 校正 
(校准 ) 的 竞争 所 制定 的 ， 更 具体 明确 [5] 。 这 些 标准 可 应 用 于 所 有 实验 室 的 测试 和 校正 ( 校 























准 )， 包 括 实验 室 和 人 员 的 竞争 。 寻 求 此 标准 资质 论证 的 实验 室 都 必须 发 展 他 们 的 实验 室 的 
质量 管理 系统 ， 以 保证 他 们 的 行政 和 技术 操作 皆 可 满足 该 标准 的 要 求 。 资 质 论证 是 一 个 相对 
正式 的 过 程 ， 而 且 此 过 程 还 必须 有 相关 权威 机 构 来 执行 ， 这 些 权 威 机 构 须 有 可 授予 实验 室 进 
行 多 项 竞争 的 资质 才 行 08] 。 资 质 论 证 应 包括 一 些 管 理 条 目 ， 即 处 理 该 标准 中 的 行政 和 质量 
条 款 。 虽 然 资 质 论 证 是 一 个 具有 灵活 性 的 范围 过 程 ， 但 它 通常 应 该 是 由 分 析 物 、 基 质 和 方法 
构成 的 特殊 组 合 。 有 关 完 成 和 管理 资质 论证 的 范围 和 过 程 的 指导 ， 可 参考 国际 实验 室 资质 论 
证 合作 (International Laboratory Accreditation Cooperation, ILAC G18) 29? 及 一 些 国家 的 




















资质 论证 组 织 ， 如 UKAS LAB 39 
资质 论证 。 联 合 王国 资质 论证 服务 
就 是 这 样 一 个 组 织 。 
































-2 。 国 家 的 资质 论证 组 织 通常 可 以 对 国内 的 实验 室 进行 
局 (The United Kingdom Accreditation Service，UKAS) 














涉及 医药 学 的 实验 室 的 资质 论证 将 有 些 特 殊 要 求 ， 它 们 将 体现 在 医药 学 实验 室 的 质量 和 
竞争 的 特殊 要 求 之 中 (ASO 15189: 2003, medical laboratories-particular requirements for 


quality and competence)[22] 。 


(三 ) 分 析 过 程 的 质量 控制 





























分 析 工 作 是 一 个 相对 流程 较 长 的 过 程 ， 它 涉及 到 方法 的 选择 与 校 验 、 分 析 实 际 过 程 、 结 
果 的 统计 分 析 与 处 理 、 分 析 报 告 的 给 出 等 。 所 以 ， 它 的 质量 控制 涉及 面 也 是 很 广泛 的 ， 就 像 
图 4-16 示 出 的 分 析 测 量 中 的 质量 控制 的 情况 。 而 且 ， 在 分 析 工 作 的 几 个 阶段 中 ， 它 们 还 相 
互联 系 、 相 互 牵 制 。 分 析 过 程 的 每 一 步 都 需 涉及 不 同 的 测量 ， 其 中 包括 采用 一 些 有 证 标准 物 
E (CRM)， 目 的 主要 是 用 来 确证 单个 或 一 组 分 析 结 果 是 否 合 格 。 根 据 不 同 的 应 用 ， 质 量 控 
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分 析 测量 中 的 质量 控制 示意 图 








就 分 析 过 程 全 流程 来 看 ， 它 涉及 方法 的 选择 与 校 验 、 分 析 实 际 过 程 、 结 果 的 统计 分 析 与 





处 理 、 分 析 报 告 的 给 出 这 四 个 步 又 











， 每 个 步骤 都 有 其 质量 控制 的 关注 点 ， 如 前 面 讨论 过 的 不 





确定 度 的 确定 与 溯源 ， 就 在 可 应 用 于 分 析 方 法 的 验证 之 中 。 至 于 在 此 岁 中 有 关 方 法 的 选择 与 
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校 验 部 分 ， 即 分 析 过 程 中 的 质量 控制 部 分 ， 将 在 本 章 逐 步 展 开 。 

下 面 将 以 一 个 具体 分 析 实 例 来 说 明 如 何 进行 分 析 过 程 的 质量 保证 与 控制 。 如 需 对 一 基础 
营养 片 剂 粉末 中 的 碘 含 量 进行 测定 ， 主 要 是 需 分 离 出 碘 ， 然 后 采用 已 知 浓度 的 硫 代 硫 酸 钠 洲 
液 对 其 进行 滴定 ， 其 终点 指示 剂 为 洗 粉 。 

为 保证 分 析 质 量 和 分 析 结 果 的 可 靠 性 ， 以 下 的 一 些 测量 必须 加 以 考虑 : 

CD 采用 适当 的 化 学 标准 物质 ， 来 进行 硫 代 硫酸 钠 溶 液 的 标准 化 ， 以 保证 其 浓度 可 靠 ， 
是 一 个 值得 关注 之 点 。 
© 试剂 空白 的 滴定 一 一 即 对 无 碘 存 在 的 所 用 化 学 试剂 基质 进行 滴定 ， 以 检查 其 是 否 
碘 。 通 过 这 一 检查 ， 就 可 以 知道 在 样本 基质 中 除 碘 之 外 是 o 全 与 交代 硫酸 杀人 
生 反 应 。 

© 对 含 已 知 浓度 碘 的 样本 进行 滴定 ， 看 回收 率 是 否 能 达到 10076. 

@ 重复 测量 两 份 或 更 多 份 样 以 确定 分 析 结 果 的 相合 性 或 精密 度 。 

当然 ， 如 果 要 真实 地 控制 好 某 一 分 析 过 程 的 质量 ， 还 得 仔细 考虑 此 分 析 工 作 的 目的 。 一 
般 说 来 ， 对 上 一 问题 至 少 必须 做 到 : 

。 MWEZA., 

。 测量 质量 控制 样本 。 

。 测量 重复 样本 。 

。 测量 空白 样本 。 

。 测量 化 学 标准 样本 。 

以 下 将 对 此 作出 较为 详细 的 介绍 。 

(D 空白 实验 空白 实验 是 一 种 方法 ， 它 所 测 得 的 信号 并 非 来 自 于 我 们 所 关心 的 样本 中 
的 特征 信号 。 空 日 实验 的 组 成 最 好 能 尽 可 能 接近 待 测 样 的 组 成 ， 只 是 没有 外 ee 
如 ， 用 硝酸 涂 解 一 个 样本 ， 这 样 就 可 以 采用 原子 吸收 光谱 来 测定 其 中 的 微量 铜 和 名 的 会 
如 果 所 用 的 酸 有 可 能 含有 微量 铜 或 旬 ， 此 时 ， 设 计 一 个 合理 的 空 自 实 验 就 十 分 必要 了 ， 它 可 
ee 一 个 含有 所 有 在 分 析 中 用 到 的 化 学 

， 但 不 含 样本 的 空 eom i um 
a HÆK. KED PE MEEF, 

(2) 质量 控制 样本 BEN E aa 特殊 分 析 在 批 次 
内 或 批 次 间 的 变异 程度 进行 研究 。 一 个 质量 控制 样本 是 一 种 物质 ， 它 由 第 三 方 或 专门 特殊 制 
作 而 成 ， 其 特点 就 是 : 这 些 样本 是 稳定 的 ， 均 匀 同 质 且 可 大 量 得 到 。 这 样 ， 它们 可 以 较 长 时 
间 用 到 分 析 过 程 中 ， 以 控制 分 析 的 连续 性 。 它 也 可 以 参考 化 学 物质 ， 它 的 稳定 和 均匀 同 质 必 
须 保证 ， 使 得 我 们 可 以 肯定 在 此 过 程 ， 如 出 现 变异 ， 就 必然 是 来 自分 析 方法 或 仪器 ， 而 不 是 
来 自 样本 的 组 成 。 对 于 质量 控制 样本 的 分 析 过 程 的 监测 一 般 可 由 质量 控制 图 来 表征 (下面 将 
给 予 讨论 )。 这 种 图 可 以 展示 测量 系统 的 统计 状态 ， 即 它 是 否 一 直 处 于 可 控 状态 还 是 有 迹象 
表明 它 正在 脱离 控制 状态 或 者 是 已 经 失去 控制 ? 如 果 方 法 已 脱离 统计 控制 状态 ， 质 量 控制 样 
本 就 不 可 再 应 用 ， 必 须 找到 脱离 控制 产生 的 理由 。 

Go 重复 样本 与 重复 测量 重复 样本 提供 了 一 个 对 通常 质量 控制 样本 而 言 ， 非 正式 的 检 
测 方法 。 在 分 析 过 程 中 ,样本 可 以 单 次 也 可 多 次 分 析 。 一 般 来 说 ， 重 复 样 本 就 是 一 般 的 样 
本 ,它们 可 以 在 同 批 样本 中 重复 ， 也 可 在 不 同 批 次 重复 。 两 次 测量 的 结果 可 以 为 我 们 能 否 接 
受 该 变异 是 在 可 接受 范围 之 内 提供 有 用 信息 。 如 果 变 异 大 于 此 界限 ， 如 变异 大 于 该 方法 的 重 
复 性 ， 就 说 明 在 此 分 析 系 统 中 一 定 存 在 着 某 种 没 被 发 现 的 缺陷 〈fault)。 所 以 重复 测量 也 是 
一 种 可 用 的 质量 控制 手段 。 重 复 性 的 标准 偏差 Guo 可 以 被 用 来 检测 一 种 方法 在 正常 操作 的 
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情况 下 的 重复 性 。 就 其 本 身 而 言 ， 重 复 性 对 于 量 测 不 确定 度 的 佑 计 来 说 并 不 是 一 个 完整 的 基 
础 ， 因 为 它 忽 略 了 由 单一 实验 室 所 产生 的 测量 偏差 的 很 多 效果 。 然 而 ， 从 质量 控制 数据 获得 
的 多 个 实验 室 的 精密 度 ， 能 够 被 用 来 获得 一 个 测量 不 确定 度 的 估计 值 。 

如 果 将 独立 观测 的 算术 平均 值 作为 测量 结果 ， 那 么 此 平均 值 的 标准 偏差 将 是 由 标准 偏差 
除 以 测量 次 数 的 平方 根来 决定 ， 即 






































u(z)-—lL (4-24) 
n 
式 (4-24) 说 明 ， 如 果 对 一 个 样本 进行 多 次 重复 测量 ,将 有 可 能 降低 其 标准 偏差 ， 次数 越 多 
降低 效应 将 越 明 显 。 如 何 来 理解 这 一 统计 学 的 结论 呢 ? 图 4-17 示 出 了 一 个 多 次 重复 测量 可 
以 降低 均值 不 确定 度 的 实例 。 左 边 的 子 图 显示 了 重复 测量 3 次 的 均值 的 散布 度 ， 而 右边 的 子 
图 显示 的 是 重复 测量 19 次 的 均值 的 散布 度 ， 从 图 可 以 看 出 ， 通 过 19 次 的 测量 ， 它 们 的 均值 
散布 度 得 到 了 明显 的 缩小 。 
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多 次 重复 测量 可 降低 均值 不 确定 度 的 实例 


(4) 盲 样 ” 育 样 是 一 种 样本 ， 它 是 被 加 入 测量 批 次 之 中 而 不 为 测量 者 所 知 的 样本 。 它 也 
可 以 是 一 种 测量 者 知道 的 育 样 ， 但 分 析 者 并 不 知 其 测量 正确 结果 的 样本 。 值 得 指出 的 是 ， 育 
样 是 分 析 化 学 中 一 种 常用 的 质量 控制 手段 。 盲 样 可 由 客户 给 出 ， 主 要 用 来 检测 一 个 实验 室 的 
能 力 ， 也 可 由 管理 者 给 出 ， 为 一 种 特殊 目的 进行 设计 。 从 育 样 所 获得 的 结果 同样 可 以 像 使 用 
重复 样 结果 那样 ， 如 客户 或 管理 者 可 要 求实 验 室 对 盲 样 进 行 重复 分 析 ， 以 检测 实验 室 的 测量 
重复 性 是 否 符合 要 求 ， 也 可 用 它 来 检测 其 结果 是 否 落 在 可 接受 范围 等 。 

(5) 化 学 标准 品 ”在 化 学 分 析 中 化 学 标 样 有 两 个 用 途 。 首 先 ， 它们 可 以 被 用 来 确认 分 析 
仪器 是 否 工作 正常 ， 有 时 也 把 此 称 为 系统 适用 性 检查 。 此 类 检测 不 涉及 特殊 样本 的 需求 ， 所 
以 ， 严 格 说 来 ， 这 还 只 是 质量 保证 而 不 是 质量 控制 。 此 外 ， 化 学 标准 品 可 以 用 于 仪器 的 校正 
响应 ， 亦 可 用 作 标 准 品 ， 它 们 既 可 用 作为 外 标 (external standardization)， 亦 可 用 作 于 内 标 
(internal standardization). 使 用 。 另 外 ， 以 加 标的 方法 所 得 的 加 标 样 ， 亦 可 在 多 种 不 同 的 场 
合 中 使 用 ， 以 达到 分 析 过 程 中 的 质量 控制 。 

(四) 质量 控制 图 

如 前 所 述 ， 可 以 采用 质量 控制 样本 分 析 来 进行 质量 控制 ， 这 是 因为 通过 这 样 的 质量 控制 
样本 分 析 ， 分析 工作 者 可 对 一 个 量 测 系 统 进行 一 段 时 期 的 监控 。 这 将 产生 大 量 的 数据 ， 而 
且 ， 利 用 这 些 数据 可 以 解释 很 多 有 关 分 析 系 统 的 特性 。 使 这 些 数据 容易 被 解释 的 一 个 工具 就 
是 控制 图 (control charts)。 当 系统 接近 失去 控制 时 ， 可 以 通过 在 图 上 定义 的 警戒 限 
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(warning limit). 来 作为 “闹钟 ”警示 我 们 。 控 制图 实际 就 是 一 个 很 简单 的 图 ， 它 将 一 段 时 
序 测量 的 数据 ， 比 如 将 质量 控制 样本 分 析 结 果 相 应 值 画 出 来 ， 这 样 ， 就 可 很 容易 地 从 数据 波 
动 看 到 测量 系统 的 波动 了 。 在 此 ， 将 对 控制 图 的 界限 及 其 相应 的 统计 意义 给 出 必要 的 说 明 ， 
并 对 它们 的 一 些 简单 应 用 给 出 解释， 如 读者 对 其 细节 感 兴 趣 ， 还 可 以 参阅 文献 【23 一 27]。 

众所周知 ， 如 果 对 一 个 量 测 系 统 进行 连续 测量 ， 所 得 数据 应 该 主要 是 反映 该 测量 系统 的 
自然 的 随机 波动 的 信息 。 这 些 结果 将 产生 一 个 均值 ， 其 余数 值 都 是 围绕 此 值 进行 着 一 个 符合 
正 态 分 布 的 系统 波动 。 如 图 4-2 所 示 ， 在 均值 士 2 个 标准 偏差 的 区 间 包 括 了 95965 E fa RE. 
而 在 均值 士 3 个 标准 偏差 的 区 间 包 括 了 99. 7% 的 置信 和 度 。 所 以 ， 对 于 服从 正 态 分 布 的 数据 来 
说 ， 数 据 落 在 均值 士 2 个 标准 偏差 的 区 间 之 外 的 概率 只 有 5%， 数 据 落 在 均值 士 3 个 标准 
差 的 区 间 之 外 的 概率 只 有 0.3%， 如 果 这 样 的 事情 发 生 了 ， 就 说 明 发 生 了 不 应 该 发 生 的 小 概 
率 事件 ， 说 明 该 测量 系统 发 生 了 变化 , 已 脱离 了 质量 控制 。 而 采用 质量 控制 图 就 是 要 使 这 样 
的 变化 容易 被 发 现 ， 以 保证 测量 系统 的 正常 运行 。 

1. Shewhart 图 

Shewhart 图 是 一 种 很 简单 的 质量 控制 图 。 它 主要 用 来 控制 分 析 过 程 的 日 常 变化 。 
检测 质量 控制 样本 的 变化 或 标准 差 来 做 到 整个 分 析 系 统 的 质量 控制 。 Se 
续 测 量 作 图 ， 就 可 得 到 很 多 十 分 有 用 的 信息 。 质 量 控制 样本 是 其 最 常用 的 分 析 样 本 ， 这 些 样 
本 的 特性 就 是 它们 的 组 成 稳定 D 在 进行 批 次 样本 的 测量 过 程 中 ， 这 些 质量 控制 样 
在 适当 的 时 间 段 被 分 析 并 记录 着 ， 只 要 质量 控制 样本 的 测量 变化 程度 是 可 被 接受 的 ， 就 有 
理由 相信 该 分 析 测 量 系统 对 别 的 样本 的 分 析 结果 同样 是 可 以 接受 的 。 然 而 ， 途 什么 来 决定 分 
析 结 果 可 被 接受 和 不 可 被 接受 呢 ? 这 主要 依据 前 述 的 统计 理论 来 进行 。 首 先 ， 质 量 控制 样本 
被 进行 多 次 测量 ， 以 模拟 日 常 测定 的 实际 情况 。 这 些 数据 就 可 用 来 得 到 质量 控制 样本 的 平均 
值 或 均值 以 及 与 之 相连 的 标准 差 。 在 Shewhart 图 中 ,均值 被 频繁 地 作为 一 个 目标 值 ， 而 标 
准 差 数据 则 被 用 来 定义 警戒 限 和 上 (下 ) BR [或 上 (下) 行动 限 ]。 一 旦 Shewhart 图 构建 
好 ,日常 的 质量 控制 样本 的 分 析 结 果 就 将 记录 到 图 上 ， 主 要 用 于 检测 该 量 测 系 统 是 否 存在 漂 
移 (drift) 或 其 分 析 结 果 是 否 落 在 警戒 限 和 上 (下 ) 限 [或 上 (下 ) 行动 限 ] 以 外 。 就 如 在 
图 4-18 中 所 示 出 的 四 种 不 同 的 状态 那样 ， 可 以 看 到 : 子 图 (a) 中 的 数据 点 正常 变动 子 图 
(b) 中 的 数据 点 与 目标 值 存在 一 个 偏 移 ; TA CO 中 的 数据 点 逐渐 漂移 ; TR (d) 中 的 数 
据点 存在 一 个 跳跃 。 为 使 绘图 容易 只 在 子 图 GO 中 保留 了 警戒 限 和 上 CF) R. 

上 下 警戒 限 的 建立 主要 是 由 均 士 2 个 标准 偏差 来 建立 的 , 而 上 (下) 限 [上 (下) 行动 
ER] 则 是 由 碟 士 3 个 标准 偏差 来 建立 的 。 也 就 是 说 ， 根 据 统计 学 中 的 规则 ， 在 1000 次 的 测 
量 中 大 概 会 有 3 次 数据 点 将 落 在 上 CF) 限 之 外 ， 而 在 20 次 的 测量 中 大 概 会 有 1 次 数据 点 
将 落 在 上 下 警戒 限 之 外 。 如 果 在 每 次 测量 中 是 使 用 两 次 或 三 次 测定 的 均值 为 一 个 数据 点 ， 则 
相应 的 警戒 限 和 上 (下 〉 限 确定 需 采 用 均值 的 标准 差 来 定 才 行 。 

如 何 有 效 地 使 用 此 质量 控制 图 是 一 个 很 重要 的 问题 ， 可 以 说 ， 如 果 有 数据 点 落 在 了 上 下 
限 之 外 ， 应 该 采取 行动 ， 而 如 果 有 数据 点 落 出 了 和 警戒 限 ， 就 必须 对 系统 发 出 警报 。 具 体 说 
来 ， 如 果 发 生 了 以 下 这 三 种 情况 ， 将 表明 此 时 本 测量 系统 一 定 发 生 了 什么 ， 应 该 采取 相应 的 
措施 才 行 : 

(D 连续 3 个 数据 点 超出 警戒 限 但 还 都 在 行动 限 之 内 。 

© 连续 2 个 数据 点 超出 警戒 限 但 还 都 在 行动 限 单 边 之 内 。 

C 连续 10 个 点 偏向 均值 的 单 边 。 

有 关 更 多 的 Shewhart 图 的 一 些 规则 ，ISO 8258: 1991 给 出 了 更 为 详细 的 说 明 以 识别 数 
据 中 的 不 正常 情况 [23] 。 
























































zal 


































































































y 
































































































































| 166 | 


分 析 化 学 手册 10 化 学 计量 学 





2. 移动 平均 图 


Shewhart 图 存在 一 个 缺点 ， 就 是 对 于 逐 


个 与 其 和 








问题 的 解 
4 点) 





平均 图 





决 提供 了 新 方法 。 











此 结果 示 于 图 4-19 中 。 












































渐 或 步 进 
肖 微 不 同 ， 名 为 移动 平均 图 (moving average chart) 的 质量 控 
该 法 的 基本 思路 十 分 简单 ， 
进行 平均 ， 并 不 断 向 后 移动 ， 将 所 得 均值 点 在 图 上 画 出 。 
所 示 的 数据 点 为 例 来 加 以 具体 说 明 。 首 先 对 图 
的 第 一 


中 的 1，2，3，4 点 进行 均值 计算 ， 
点 ， 然 后 再 对 图 中 的 2，3，4，5 点 进 
如 此 不 断 计 算 ， 直 到 CD 图 的 最 后 的 四 个 点 的 均值 计算 完成 ， 作 为 移动 平均 图 


的 变化 有 时 不 易 表 达 出 来 。 这 样 ， 一 
制图 被 提出 ， 为 这 个 
它 就 是 通过 将 陆续 测量 的 点 (一般 取 
下 就 以 图 4-18 中 的 (Cd) 图 
得 到 移动 
得 到 移动 平均 图 的 第 二 点 ， 
的 最 后 一 点 。 








井 行 均值 计算 ， 
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图 4-18 中 (d) 图 数据 所 得 的 移动 平均 图 


(a) Shewhart 图 的 结果 ; (b) 每 











四 个 点 进行 一 


次 平均 的 移动 平均 图 
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从 图 4-19 可 以 看 出 ,图 (b) ER a) 所 示 的 变化 趋势 情况 明晰 得 多 。 对 于 图 a), 
变化 趋势 需要 看 到 第 12 或 第 13 次 的 测量 才 有 些 体现 ， 而 图 b) 所 示 的 变化 趋势 在 第 10 个 
点 时 就 很 清楚 了 。 值 得 指出 的 是 ,移动 平 均 图 所 显示 的 结果 是 参 入 平均 的 点 数 n 的 函数 ， 
RAK, n 越 大 即 点 数 越 多 ， 则 所 显示 的 变化 趋势 越 平滑 (或 平稳 ), 但 其 反映 的 变化 趋 
势 也 将 后 移 ， 故 应 存在 一 个 平衡 ， 可 根据 实际 情况 具体 确定 ， 但 大 多 是 取 4。 男 外 ， 就 像 
Shewhart 图 一 样 ， 如 果 在 每 次 测量 中 使 用 多 次 测定 的 均值 为 一 个 数据 点 ， 则 相应 的 警戒 限 
和 上 CF) 限 确定 需 采 用 均值 的 标准 差 来 定 才 行 。 

3. CUSUM 图 

因为 采用 了 全 部 数据 ， 所 以 CUSUM 图 是 检测 在 均值 中 是 否 发 生 了 微小 变化 的 最 好 方 
法 。 考 虑 到 在 一 个 分 析 过 程 中 ， 存 在 着 一 个 目标 值 工 。 对 于 每 一 个 新 的 测量 ， 计 算 它 与 工 
的 差 值 并 将 其 加 入 不 断 增加 的 总 值 ， 而 且 将 此 不 断 增加 的 总 值 对 相继 测量 点 作 图 (CUSUM 
就 是 累计 和 的 略 写 ) 。 试 想 如 果 此 测量 系统 中 所 测 的 均值 与 建立 的 均值 或 目标 值 接 近 ， 那 么 ， 
CUSUM 网 中 的 梯度 接近 于 零 ， 一 个 正 梯度 值 则 表示 此 测量 系统 测 得 的 均值 大 于 目标 值 ， 但 
一 个 负 梯 度 值 则 表示 此 测量 系统 测 得 的 均值 小 于 目标 值 。 

图 4-20 示 出 了 从 图 4-18 Cd) 和 Co 的 结果 计算 所 得 的 CUSUM 图 。 从 图 4-20 Ca) 
[由 图 4-18 (d0 结果 所 得 ] 可 以 看 到 ， 此 图 的 梯度 有 一 个 明显 的 转折 变化 ， 而 且 其 变化 梯 
度 是 持续 的 ， 像 一 条 向 上 直线 。 而 从 图 4-20 (b) [由 图 4-18 (oO 结果 所 得 ] 看 到 的 是 一 条 
逐步 变化 的 曲线 ,说 明 测 量 系 统一 直 都 在 变化 ， 反 映 了 漂移 的 特性 。 
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注意 对 于 CUSUM 图 ， 通 常用 的 警戒 限 和 行动 限 都 无 法 应 用 于 回答 图 中 数据 是 否 还 在 
可 控 范围 ， 它 需要 采用 一 个 命名 为 V- 面 具 (V-mask) 的 新 手段 。 图 4-21 示 出 了 这 样 的 解释 
CUSUM 图 的 V- 面 具 。 从 网 4-21 (a) 中 可 以 看 到 ， 此 V- 面 具 以 与 x 轴 平 行 义 与 “4d” 线 平 
行 的 直线 为 中 线 ， 此 线 的 端点 与 一 个 数据 点 相连 ， 然 后 检查 其 左面 所 括 人 的 所 有 数据 点 是 否 
JA V- 面 具 之 中 ; 图 4-21 Cb) 示 出 了 一 个 如 何 使 用 V- 面 具 来 解释 CUSUM 网 中 数据 的 实 
例 。 在 子 图 b 中 可 以 看 到 两 个 V- 面 具 ， 一 个 为 A 点 V- 面 具 , 一 个 为 B 点 V- 面 具 。 从 A 
点 V- 面 具 中 可 以 看 到 ， 前 面 所 有 测量 的 数据 点 都 落 入 A 点 V- 面 具 的 两 臂 之 中 ， 说 明 此 时 该 
分 析 系 统 还 完全 处 于 可 控 范围 之 中 ; 而 对 于 B 点 的 V- 面 具 ， 就 可 发 现 已 有 几 个 点 落 入 两 臂 
之 外 了 ， 说 明 测 量 到 这 几 个 点 时 ， 该 分 析 系统 已 处 于 可 控 范 围 之 外 ， 出 现 了 问题 。 

因 CUSUM 图 是 使 用 V- 面 具 的 两 辟 来 进行 质量 控制 ， 所 以 ，V- 面 具 的 两 辟 的 长 度 和 和 角 
RE 0 大 小 的 选择 就 得 认真 ， 目 标 就 是 如 果 分 析 系 统 发 生意 外 (如 分 析 结 果 偏 离 了 目标 值 时 )， 
识别 要 快 ， 但 也 需 避 人 免 不 必要 的 过 多 警告 。 因 为 x 轴 和 >y 轴 的 标 度 对 & 和 0 有 影响 ， 所 以 
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它们 都 需 进 行 标 度 化 。 SRL M 个 单位 为 其 划分 ; 如 果 测 量 是 单 次 进行 的 话 ，y 轴 的 基本 
划分 则 需 以 2e (在 此 ,so 是 总 体 分 布 的 标准 偏差 或 是 通过 样本 标准 偏差 得 到 的 一 个 估计 ) 
为 其 单位 。 如 果 在 每 次 测量 中 使 用 多 次 测定 的 均值 为 一 个 数据 点 ， 则 相应 需 采用 均值 的 标准 


差 ， 即 2c/wz ， 来 定 才 行 。 



































测量 站 
(a) (b) 


(a) 解释 CUSUM 图 的 V- 面 具 ; (b) V- 面 具 解 释 CUSUM 图 的 实例 





























对 于 V- 面 具 的 维度 ， 一 般 是 根据 已 有 历史 数据 ， 采 用 试 错 方法 来 进行 。 目 标 就 是 通过 
它 尽 早 诊断 出 需 引 起 注意 的 警戒 点 。 在 实际 应 用 中 ， 需 像 构建 Shewhart 图 得 到 警戒 限 和 行 
动 限 那样 ， 采 用 相同 的 统计 理论 来 构建 V- 面 具 。 

如 果 还 没有 历史 数据 ， 可 先 以 横 轴 的 单位 为 单位 ， 取 4 —2. 07 22 ，V- 面 具 的 臂 长 取 
12 个 横 轴 单位 。 这 样 ， 数 据点 落 入 V- 面 具 的 两 辟 之 中 ,说 明 它们 在 质量 控制 之 中 ， 反 之 ， 
如 果 存 在 落 到 V- 面 具 的 两 臂 之 外 的 数据 点 ， 就 说 明 分 析 系 统 已 处 于 可 控 范 围 之 外 了 了。 

4. 极 差 控制 图 

在 前 面 讨论 的 几 个 图 大 都 是 用 来 诊断 一 个 分 析 测 量 系 统 的 偏差 ， 即 对 目标 质量 控制 样本 
的 偏 移 程度 ， 就 像 在 图 4-18 中 的 (b)、(c) M C 子 图 所 示 的 那 几 种 情况 。 实 际 上 ， 如 果 
能 对 一 个 分 析 测 量 系统 的 精密 度 进行 控制 也 是 十 分 有 用 的 ， 实 因 如 果 一 个 分 析 测 量 系统 的 精 
密度 很 差 ， 在 质量 控制 中 也 是 不 可 接受 的 。 极 差 控 制图 (range charts) 就 是 这 样 一 种 可 对 
分 析 测 量 系统 的 精密 度 进行 控制 的 手段 。 如 果 样 本 在 每 批 测试 样本 中 被 独立 地 分 析 了 两 次 或 

三 次 ,对 每 次 的 重复 测量 ,可 计算 出 它们 的 变化 范围 (如 其 中 的 最 大 值 与 最 小 值 之 差 ;。 将 
它们 依次 画 在 图 上 ， 就 可 得 如 图 4-22 示 出 的 极 差 控制 图 。 就 像 Shewhart 图 的 构建 ， 控 制 限 
亦 可 加 于 极 差 控制 图 上 。 首 先 ， 均值 范围 可 画 存 图 上 ， 下 限 和 上 限 可 通过 将 均值 范围 值 乘 上 
一 个 由 表 4-7 给 出 的 数值 而 得 。 当 然 ， 被 乘 值 是 依赖 于 测量 次 数 的 。 

图 4-22 示 出 了 带 有 上 下 限 的 极 差 控制 图 。 在 这 个 例子 里 ， 每 批 测 试 样本 都 包含 了 测量 
了 四 次 的 质量 控制 样本 ， 四 次 测量 的 质量 控制 样本 的 变动 范围 被 计算 并 被 相继 画 在 图 上 ， 均 
值 范 围 值 为 2.7。 由 于 ?二 4， 下 限 置 于 0， 上 限 则 为 2.282 X2.7—6.2, 


TER ECT OO 的 极 差 控制 图 的 均值 范围 值 的 上 界 乘 数 
重复 测量 次 数 (n) ER 重复 测量 次 数 (n) ER 























































































































2 3. 267 4 2. 282 


3 2. 574 5 2. 114 





第 四 分 析 测 量 数 据 的 统计 评价 与 质量 控制 
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带 有 上 下 限 的 极 差 控制 图 (range charts) 


第 三 节 “分 析 方 法 的 品质 因数 及 校 验方 法 


为 描述 一 个 分 析 方 法 ， 品 质 因 数 (figures of merit) 是 一 些 很 有 用 的 、 表 征 方法 特性 
的 关键 性 能 参数 ， 这 些 品 质 因数 不 但 在 方法 选择 中 起 到 重要 作用 ， 可 为 人 们 选择 方法 提 
供 人 依据， 而且， 在 对 分 析 方 法 进行 校 验 时 ， 它 们 大 都 是 备 受 关注 的 有 关 方 法 的 关键 性 能 

稼 用 的 有 关 分 析 方法 的 品质 因数 ， 包 括 方法 的 选择 性 、 灵 人 敏 度 、 精 密度 、 检 测 下 限 、 定 
量 限 、 偏 差 、 测 量 不 确定 度 、 线 性 范围 、 工 作 范 围 和 方法 耐 受 性 等 。 图 4-23 示 出 了 一 个 分 
析 方 法 的 校正 曲线 ， 在 这 校正 曲线 之 中 就 包含 了 某 些 重要 的 有 关 分 析 方 法 的 关键 性 能 参 
数 ， 如 灵敏 度 、 检 测 下 限 、 定 量 限 、 线 性 范围 、 工 作 范 围 ， 如 果 还 能 将 工作 校正 曲线 每 
个 点 的 具体 浓度 位 置 和 测量 不 确定 度 表达 出 来 ， 那么， 诸如 精密 度 、 测 量 不 确定 度 亦 可 表 

因 对 于 方法 的 品质 因数 ， 部 分 如 偏差 、 测 量 不 确定 度 ， 已 在 前 几 节 给 出 了 介绍 ， 本 节 将 
对 部 分 还 未 提 及 的 分 析 方 法 的 品质 因数 及 分 析 方 法 的 校 验 给 出 介绍 。 此 外 ， 对 分 析 方 法 的 可 
追溯 性 也 给 予 必要 的 讨论 。 


部 分 分 析 方 法 的 品质 因数 


1. 灵敏 度 (sensitivity) 

灵敏 度 是 测量 仪器 响应 对 浓度 变化 的 变化 率 ， 也 即 校准 曲线 的 斜率 。 显 然 ， 灵 人 敏 度 越 
大 ， 该 方法 就 可 以 分 辨 在 类 似 浓度 之 间 ， 一 个 小 的 浓度 差异 ,将 导致 在 观察 到 的 反应 中 有 很 
大 的 差异 。 灵 敏 度 有 可 能 在 浓度 改变 时 也 发 生 改 变 ， 如 图 4-23 Bron. 但 校准 图 往往 在 很 宽 
的 浓度 范围 内 是 线性 的 。 

2. 选择 性 (selectivity) 

在 方法 开发 过 程 中 ， 该 方法 是 否 能 够 完成 对 感 兴 趣 分 析 物 的 测量 。 然 而 ， 方 法 验证 的 部 
分 目标 就 是 要 验证 ， 这 分 析 物 是 否 为 其 唯一 可 测 的 实际 分 析 物 测量 。 在 一 定 程度 上 ， 该 方法 
可 以 明确 地 检测 和 定量 分 析 混 合 物 中 的 特殊 的 分 析 物 ， 而 不 受 混 合 物 中 其 他 成 分 的 干扰 ， 这 
s posu 先 择 性 或 特异 性 。 在 一 些 领 域 测量 的 术语 选择 性 或 特异 性 经 常 交替 使 用 ， 但 这 

能 造成 混乱 ， 故 应 选择 在 分 析 化 学 中 建议 使 用 的 术语 。 根 据 给 定 的 条 件 ， 在 有 类 似 行为 的 
一 个 特定 的 方法 可 以 用 来 确定 地 分 析 测 量 物 程度 就 是 此 法 的 选择 
性 [28] 。 选 择 性 将 通过 测量 分 析 物 的 一 个 独特 的 属性 ， 如 在 一 个 特定 波长 ， 可 将 样品 中 的 分 
析 物 从 其 他 物质 中 分 离 出 来 。 
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| 70 分 析 化 学 手册 “10” 化 学 计量 学 
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浓度 
某 些 关键 性 能 参数 的 示意 图 


如 果 在 方法 开发 过 程 中 没有 得 到 充分 的 解决 ， 对 从 纯 测 量 标准 分 析 样 品 的 选择 性 的 研 
究 ， 既 可 通过 对 添加 了 潜在 干扰 物 的 纯 分 析 物 的 分 析 来 进行 ， 亦 可 通过 测定 已 知 组 成 的 混合 
物 ， 看 是 否 能 得 到 相 匹 配 的 真实 样本 组 成 。 当 然 ， 严 重 的 干扰 需要 被 消除 ， 但 轻微 的 影响 应 
该 是 可 以 忽略 的 ， 这 个 忽略 包括 了 方法 偏差 及 其 相关 的 不 确定 度 。 

对 于 复杂 的 样本 类 型 ， 如 果 对 方法 能 否 明确 地 识别 和 测量 感 兴趣 的 分 析 物 有 任何 疑问 的 
话 ， 可 使 用 紧密 匹配 的 基质 参考 物质 ， 或 是 使 用 另 一 种 验证 方法 来 对 样本 进行 测量 。 

3. 线性 范围 和 工作 范围 

确定 方法 的 线性 范围 和 工作 范围 可 通过 检查 具有 不 同 分 析 物 浓度 的 样品 ， 通 过 测定 其 浓 
度 的 变化 和 测量 不 确定 度 ， 即 可 得 到 可 接受 的 校正 线性 范围 。 线 性 也 可 通过 视觉 检查 来 进 
行 。 校 正 响应 曲线 不 完全 是 线性 的 也 同样 可 成 为 一 种 可 用 的 分 析 方 法 。 在 此 ， 所 需 的 是 有 关 
响应 对 浓度 的 方程 ， 即 所 谓 的 校正 函数 。 工 作 范 围 就 是 指 落 入 该 区 域 的 分 析 结 果 是 可 接受 
的 ， 并 具有 相应 的 可 接受 的 不 确定 度 ， 而 且 工作 范围 可 以 大 于 线性 范围 。 正 如 图 4-23 Bron. 
工作 范围 的 下 端 就 是 定量 限 (limit of quantitation，LoQ) ， 定 义 的 上 端 用 点 则 表示 此 时 即使 
有 浓度 的 变化 ， 响 应 也 不 再 改变 了 。 线 性 范围 可 能 随 基 质 类 型 变化 而 改变 ， 因 此 ， 它 可 能 需 
要 用 不 同样 本 类 型 来 进行 检查 才 行 。 

4. 检测 限 (limit of detection, LoD) 

国际 纯粹 与 应 用 化 学 联合 会 (IUPAC) 建议 的 检测 限定 义 [9 认为， 以 浓度 Ci 或 物理 
i qz 表述 的 检测 限 ， 是 由 给 定 的 分 析 方 法 能 以 一 定 的 准确 度 检 出 的 最 小 测度 zr 导 出 的 。 这 
一 概念 后 被 简化 为 “检测 限 是 给 定 分 析 方 法 能 可 靠 地 检 出 的 最 低 浓度 ” COR E o AD, 
如 图 4-23 中 所 示 。 有 几 种 方法 可 来 估计 检测 限 〈LoD) 值 。 它 既 可 通过 重复 分 析 的 空白 测 
试 来 获得 ， 也 可 通过 含有 少量 的 分 析 物 的 试验 获得 。 如 测 得 3 次 空白 信号 后 ， 再 取 3 E Dni 
2€ (3sb)， 说 明 在 空白 的 正常 测量 中 是 不 可 能 发 生 的 小 概率 事件 ， 可 作为 LoD 的 近似 信 
计 。 值 得 指出 的 是 ， 标 准 偏差 应 从 大 量 的 空白 或 对 低 浓度 的 加 入 参考 物 的 样本 测量 而 得 
才 行 。 

英国 水 行业 使 用 LoD=2vV2zsw， 其 中 sw 为 批 内 空白 测量 结果 的 标准 偏差 ， 而 上 则 是 服 
从 学 生 统 计 分 布 的 标准 偏差 的 自由 度 [30 。 它 大 约 为 4.65sw， 比 sw 的 3 倍 要 大 些 。 在 方法 验 
证 期 间 ， 获 得 LoD 主要 应 该 针对 “满足 分 析 方 法 的 目标 ”来 进行 ， 而 且 使 用 过 程 中 还 应 定 
期 检查 方法 ， 以 确保 不 受 基 线 变化 的 影响 。 

在 此 ， 有 必要 提出 ， 仪 器 检测 下 限 (instrument detection limit, IDL) 是 一 种 仪器 参数 
和 最 低 浓度 测量 结果 在 仪器 的 响应 。 这 可 以 从 测量 纯 分 析 物 获得 。 与 此 相反 ,方法 检 出 限 
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(method detection limit，MDL)， 则 是 像 LoD 一 样 ， 是 基于 空白 的 实际 样品 的 测量 而 获得 
或 是 通过 在 方法 测量 所 需 基 质 中 加 入 分 析 物 而 获得 。 另 外 ， 仪 器 检测 下 限 也 可 通过 仪器 的 信 
品 比 来 进行 估计 ， 一 般 都 要 求 大 于 噪声 水 平 的 三 倍 。 注 意 ， 在 这 种 情况 下 ， 所 获得 的 数值 的 
量 纲 必须 转换 为 浓度 单位 。 

对 于 检测 下 限 ， 即 用 于 检测 分 析 物 存在 或 不 存在 的 测试 ， 此 阅 值 应 该 就 是 可 以 检测 到 的 
浓度 。 这 可 以 通过 设计 一 系列 对 不 同 浓度 的 样本 的 重复 测量 来 完成 。 通 过 对 这 些 数据 的 分 





















































析 ， 即 可 建立 可 靠 的 检测 之 间 的 分 界 点 (cut-off point)。 表 4-8 示 出 了 这 样 一 个 例子 。 这 个 
例子 所 用 的 重复 测量 次 数 为 10 次 。 从 表 4-8 可 以 看 出 ， 此 例 的 检测 下 限 应 该 定 在 100pg/8g， 
这 是 因为 低 于 100pg/g 的 样本 ， 假 阳性 结果 已 在 10 次 中 占 了 5 次 。 


对 不 同 浓度 水 平 的 10 次 分 析 的 响应 














浓度 / (ug/g) 正 响 应 / 负 响 应 浓度 / (hg/g) 正 响应 / 负 响 应 
200 10/0 50 1/9 
100 10/0 25 0/10 


75 5/5 0 0/10 





5. 定量 限 (limit of quantitation, LoQ) 

定量 限 是 方法 具有 可 接受 的 不 确定 性 水 平 的 对 分 析 物 进行 定量 分 析 的 最 低 浓度 。 这 应 该 
通过 使 用 适当 的 参考 化 学 物质 或 样品 来 进行 ， 而 不 应 该 纯粹 通过 外 推 来 确定 。 各 种 常用 公约 
一 般 都 采取 将 一 个 空白 或 低 浓度 的 基质 溶液 在 多 次 重复 测量 中 所 得 标准 偏差 的 5 倍 、6 倍 或 
10 倍 来 作为 近似 的 定量 下 限 。 

以 上 介绍 的 方法 给 出 检测 限 和 定量 限 的 近似 值 。 如 果 在 测试 样品 中 的 分 析 物 浓度 水 平 远 
高 于 LoD， 这 是 足够 的 检测 限 和 定量 限 。 如 果 检 测 限 是 至 关 重 要 的 ， 应 通过 使 用 更 严格 的 
FE], Esh, LoD 和 LoQ 有 时 在 测量 条 件 下 的 轻微 的 变化 或 样本 类 型 变化 时 亦 可 发 
生变 化 。 这 些 参 数 十 分 重要 ， 有 必要 在 方法 验证 过 程 中 ， 以 评估 预期 变化 的 水 平 。 当 该 方法 
是 在 常规 使 用 时 ， 需 建立 进行 检查 的 协议 参数 ， 在 适当 的 时 间 间 隔 内 进行 检查 。 

6. 线性 检查 (linearity checks) 

方法 的 线性 检查 是 衡量 一 个 分 析 方 法 的 可 用 区 间 。 尤 其 方法 是 常规 的 分 析 方 法 时 ， 就 有 
必要 对 其 响应 是 否 与 被 分 析 物 的 浓度 成 正比 进行 研究 。 当 然 ， 有 时 响应 还 需要 经 过 一 些 变 换 
(如 通过 一 个 数学 函数 ) 才能 形成 。 对 线性 的 定量 评价 一 般 通 过 统计 学 的 拟 合 技术 来 完成 。 
建立 分 析 方 法 的 线性 通常 比 典 型 的 方法 验证 需要 更 多 的 化 学 标准 和 更 多 地 对 每 一 个 浓度 的 重 
复 测定 。 然 而 ， 当 建立 线性 方法 时 ， 对 已 知 浓度 的 样本 并 不 需要 它们 之 间 相 互 独立 。 分 析 方 
法 的 线性 建立 ， 既 需要 考虑 到 对 分 析 物 质 的 覆盖 范围 和 使 用 基质 的 影响 ， 而 且 ， 校 正 浓度 的 
范围 最 好 大 于 预期 样品 的 浓度 范围 土 20%。 

对 于 一 个 可 靠 的 方法 线性 研究 : 

。 校正 溶液 的 浓度 值 (z) 应 均匀 地 分 布 于 感 兴趣 的 线性 范围 。 一 个 或 两 个 值 在 极端 的 
两 端 可 以 引起 “杠杆 效应 ?39 。 

。 最 少 需要 研究 6 个 浓度 的 水 平 。 并 对 它们 按 随机 顺序 测量 。 

。 在 每 个 水 平 测量 2 一 5 次 。 

。 确保 样品 的 响应 尽量 接近 校正 集 所 涵盖 的 浓度 平均 值 的 响应 ， 这 将 减少 最 小 二 乘 的 
误差 对 回归 线 的 估计 贡献 。 

。 纯 物 质 可 用 于 评估 仪器 的 线性 。 

。 基质 匹配 的 认证 的 参考 材料 或 加 标 标 样 应 用 于 确定 分 析 方 法 的 线性 的 检验 方法 。 
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。 通 过目 视 检 查 对 浓度 的 曲线 图 的 线性 度 进行 评估 。 

。 检查 异常 值 的 存在 。 如 果 有 可 疑 值 ， 则 使 用 检查 统计 测试 ， 无 论 是 格拉 布 斯 或 者 狄 
克 示 试验 [55 。 

有 关 其 他 统计 参数 ， 在 此 给 出 几 个 重要 因素 ， 首 先是 要 确认 是 否 在 方法 的 测量 工作 范围 
中 存在 等 性 方差 (homoscedasticity)， 这 可 以 通过 对 方法 的 测量 工作 范围 的 极端 样本 进行 10 
次 重复 测量 来 进行 ， 通 过 计算 每 个 组 的 方差 和 统计 测试 (下 检验 ) 进行 检查 ， 以 确定 这 些 差 
异 是 否 有 统计 学 意义 上 的 显著 不 同 ![35] 。 线 性 首先 应 通过 视觉 检查 对 数据 绘制 的 校正 图 来 评 
估 ， 然 后 再 通过 统计 评估 。 仪 器 响应 的 线性 需要 这 个 信息 ， 否 则 它 难 以 归属 非 线 性 的 成 因 。 
配套 的 统计 参数 包括 相关 系数 (r 、r? 等 )、 残 差 图 、 残 差 标 准 差 和 对 斜率 和 截 距 的 显著 性 检 
验 。 相 关系 数 不 能 用 来 衡量 线性 程度 ， 只 是 反映 变量 与 因 变 量 之 间 的 关系 ,例如 仪器 响应 和 
分 析 物 浓度 。 重 要 的 是 要 进行 目 视 检查 ， 并 分 析 残 差 图 的 趋势 。 


二 、 分 析 方 法 的 校 验 


国际 标准 (ISO/IEC 17025) 对 分 析 方 法 校 验 给 出 了 如 下 定义 ,通过 客观 证 据 的 提供 与 
检查 ， 说 明 该 方法 能 够 满足 ， 对 一 个 须 完 成 的 特殊 应 用 的 特别 要 求 (the confirmation by ex- 
amination and provision of objective evidence that the particular requirements for a specific 
intended use are fulfilled) 。 这 说 明 对 一 个 已 校 验 的 方法 ， 它 可 产生 分 析 结果 ， 而 这 些 结果 将 
可 适用 于 评价 该 实验 室 。 可 以 说 ， 方 法 校 验 (method validation) 实际 就 是 进行 一 系列 的 有 
计划 的 实验 ， 测 定 一 些 必 要 的 方法 执行 参数 。 一 般 来 说 ， 这 些 参数 包括 方法 的 选择 性 、 精 密 
度 、 偏 差 、 线 性 范围 、 检 测 限 、 定 量 限 、 校 正和 方法 耐 受 性 。 有 关 方 法 校 验 的 过 程 示 于 
4-24。 
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分 析 方 法 校 验 过 程 的 示意 图 





对 所 需 的 分 析 如 果 没 有 现存 的 方法 ， 那 么 任何 一 个 现 有 的 方法 必须 改进 以 适应 新 的 要 
求 ， 或 者 开发 新 的 分 析 方法 。 被 改进 的 或 新 发 展 的 方法 都 将 需要 进行 优化 和 识别 对 其 进行 质 
量 控制 时 所 需 的 要 求 ， 从 而 确保 该 方法 可 以 在 实验 室 中 使 用 。 然 后 ， 收 集 证 据 以 证 明 该 方法 
确实 “符合 分 析 的 目标 ”。 方 法 校 验 的 程度 和 内 容 必 须根 据 分 析 问 题 的 细节 和 已 可 用 的 信息 
来 共同 决定 。 图 4-25 就 示 出 了 一 个 分 析 方 法 如 何 来 决定 需要 验证 的 程度 和 范围 。 

如 果 这 是 一 个 已 发 表 的 方法 ， 其 性 能 特点 是 已 知 的 ， 实 验 室 只 需 确认 该 法 是 否 有 能 力 达 
到 分 析 水 平 的 要 求 即 可 。 对 于 一 些 重要 参数 ， 如 选择 性 、 偏 差 、 精 度 和 工作 范围 ， 需 要 仔细 
检查 。 如 果 获 得 的 信息 是 令 人 满意 的 ， 对 该 方法 的 使 用 就 可 具备 信心 。 通 过 有 限 的 校 验 
(validation〉 以 确认 其 所 建立 的 方法 的 性 能 是 否 可 以 实现 的 过 程 被 称 为 验证 (verification)。 
对 该 方法 的 继续 校 验 需要 使 用 适当 的 质量 控制 程序 来 进行 。 标 准 方法 的 校 验 被 认为 是 不 够 
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全 区 2 芝 昌 一 个 分 析 方法 如 何 决定 需要 验证 的 程度 和 范围 的 示意 图 





的 ， 例 如 ， 一 个 旧 的 和 不 充分 的 验证 方法 是 用 于 一 个 重要 指标 的 测量 ， 或 验证 数据 只 适用 于 
理想 样品 ， 但 该 方法 却 不 能 用 于 困难 样品 〈 复 杂 体 系 )， 进 一 步 的 验证 方法 将 在 下 面 的 章节 
进行 讨论 。 作 为 最 低 的 限度 ， 实 验 室 需 要 证 明 它 至 少 能 满足 规定 的 特别 的 测量 规范 要 求 。 
最 终 ， 进 行 验证 的 数量 必须 确保 测量 结果 适合 他 们 的 用 途 ， 而 且 ， 风 险 的 水 平 也 应 是 实 
验 室 和 客户 都 可 以 接受 的 。 例 如 ， 对 于 一 个 高 度 重 要 的 测量 就 必须 选择 严格 验证 的 方法 。 但 
对 于 中 等 重要 性 的 测量 ， 可 以 减少 一 些 步 又， 但 这 样 可 能 引起 测量 不 确定 度 的 增加 ， 所 以 ， 
可 以 增加 些 手 段 以 应 付 不 确定 性 的 增加 。 应 该 与 客户 一 起 讨论 什么 是 重要 的 需求 ， 尤 其 是 那 
些 没有 被 测量 要 求 规 范 赛 括 的 要 求 。 还 必须 认识 到 ， 重 要 性 水 平 是 可 以 随时 间 变 化 而 变化 
的 ， 当 重要 性 增加 时 ， 工 作 也 可 能 需要 增加 。 总 之 ， 验 证 的 程度 将 随 不 同情 况 的 变化 而 变 
k., ERARE. 
耐用 性 测试 (ruggedness testing): 耐用 性 测试 是 一 种 评价 方法 ， 它 可 以 测试 实验 条 件 
(如 温度 、pH 值 、 流 量 、 成 分 变化 的 流动 相等 ) 发 生 的 微小 变化 ， 对 测量 结果 会 产生 什么 
样 的 有 影响。 目标 首先 是 要 识别 ， 如 果 有 必要 ， 最 好 控制 好 这 些 引 起 响应 变化 的 实验 条 件 。 当 
在 不 同时 间或 不 同 的 实验 室 进行 测量 时 ， 此 法 所 得 结果 将 有 助 于 提高 精度 和 和 降低 偏差 。 
在 适当 地 控制 其 他 条 件 都 不 变 的 条 件 下 ， 通 过 对 一 个 特定 参数 进行 一 小 的 变化 ， 如 
10%% ， 继 通过 重复 测量 ， 耐 用 性 测试 可 以 分 别 检测 每 个 变化 对 分 析 结 果 的 影响 。 然 而 ， 如 果 
影响 因素 太 多 时 ， 实 验 工作 量 较 大 。 对 于 一 个 十 分 成 熟 的 方法 ， 大 部 分 条 件 的 影响 都 应 可 以 
预期 不 大 ， 此 时 一 些 实验 设计 方法 是 可 用 的 ， 在 同一 时 间 改 变 几 个 参数 是 容易 实现 的 [36.37]。 
任何 稳定 和 均匀 的 样品 的 范围 内 的 方法 可 以 用 于 耐用 性 试验 。Youden 和 Steiner L361 fif 
述 了 一 个 简单 的 实验 (由 Plackett Burman 设计 65 ) ， 在 八 个 实验 中 ， 它 允许 检测 七 个 独立 
的 需要 检查 的 因素 。 一 些 可 能 影响 分 析 结 果 的 因素 都 可 包括 于 内 ， 如 酸 浓 度 、 提 取 时 间 、 流 
速 、 温 度 等 ， 如 果 对 可 识别 的 每 个 参数 的 水 平 进 行 调查 ， 可 以 有 128 个 组 合 。 然 而 ， 此 设计 
只 需 八 个 实验 。 让 A、B、C、D、E、F 和 G 表示 七 个 选择 参数 的 一 个 名 义 水 平 ， 而 用 a、 
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b、c、d、e、f 和 g 代 表 另 一 个 名 义 水 平 。 所 选择 的 水 平 ， 如 在 使 用 中 可 能 遇 到 的 温度 变化 
的 两 个 极端 值 ， 表 4-9 示 出 了 这 样 一 个 Plackett Burman 设计 表 ， 它 显示 了 运行 八 个 实验 时 
使 用 七 个 因素 的 情况 。 其 中 实验 的 结果 则 是 用 1、m、p、w、v、x、y 和 z 来 表示 每 一 个 斌 
验 的 结果 。 计 算 每 个 影响 因素 的 效应 值 十 分 容易 ， 将 一 个 水 平 的 结果 均值 减 去 另 一 个 低 水 平 
的 结果 均值 即 可 得 。 值 得 指出 的 是 ， 此 设计 就 是 一 个 全 因子 设计 的 例子 ， 如 读者 对 此 感 兴 
趣 ， 可 参阅 本 书 第 三 章 。 


Plackett Burman 设计 表 






































实验 数 方法 参数 实验 结果 
l A B C D E F C 1 
2 A B e D e f g m 
3 A b C d E f g p 
4 A b c d e F C w 
5 a B C d e F g v 
6 a B c d E f C x 
7 a C e f C y 
8 a c E F g z 











下 以 两 个 实例 来 对 此 计算 加 以 说 明 。 如 需 计 算 以 A 和 a 为 代表 因素 的 两 个 水 平 之 间 所 
产生 的 效应 值 AA4， 从 表 4-9 可 以 看 出 ， 第 一 次 到 第 四 次 试验 的 条 件 都 是 A， 而 后 面 四 次 试 
验 的 条 件 都 是 a， 所 以 ， 以 前 四 个 试验 结果 的 均值 减 去 后 四 个 试验 所 得 结果 的 均值 即 可 ， 即 


1 十 mm 十 P 十 WwW vłtxty+z 
4 4 














AA (4-25) 


另外 六 个 因素 的 效应 值 ， 即 As 到 Ac ， 都 可 用 类 似 方 法 算出 。 如 需 计 算 Ap， 从 表 中 看 
到 ， 对 于 以 B 为 条 件 的 四 个 试验 的 结果 为 1 m，v 和 x， 而 以 b 为 条 件 的 四 个 试验 的 结果 为 
p: Ws y Mz, 所 以 有 : 














接 下 来 就 是 计算 所 得 因素 两 水 平 的 差异 是 否 有 统计 学 意义 ， 在 此 可 用 1 检验 来 进行 检 
验 。 在 同一 方法 的 精密 度 GO 条 件 下 ， 下 述 方程 可 用 于 比较 不 同 的 | A; | 。 使 用 的 上 值 对 
应 于 相应 置信 度 的 统计 表 所 列 之 值 ， 其 中 的 自由 度 采 用 对 标准 偏差 * 估计 的 自由 度 ， 例 如 ， 
如 果 该 方法 的 标准 偏差 是 从 10 次 重复 结果 得 到 ， 即 其 自由 度 为 9， 亦 即 £095 26) =2. 262, 
































| AS quem (4-26) 
E 


如 果 式 (1-260 成 立 ， 则 说 明 此 因素 两 水 平 的 差异 具有 统计 学 意义 。 注 意 此 法 要 求 各 因 
素 是 相互 独立 的 ， 否 则 可 能 引起 误导 。 


三 、 分 析 方 法 的 可 追溯 性 


为 追溯 一 个 测量 结果 ， 影 响 结果 的 每 个 因素 都 必须 可 追溯 W383,3]。 要 做 到 测量 结果 可 追 
测 不 容易 ， 就 像 要 在 实验 室 里 建立 一 个 质量 管理 体系 不 太 难 ， 但 要 十 分 充分 地 理解 所 用 的 分 
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析 方 法 却 不 容易 ， 而 且 ， 它 还 要 求知 道 对 方法 产生 影响 的 每 一 个 已 知 量 及 与 其 相关 联 的 不 确 
定 度 。 获 得 测量 结果 的 计量 溯源 的 一 个 方法 就 是 用 基准 方法 (primary method) 得 到 结果 。 
基准 方法 的 定义 是 由 国际 计量 局 (International Bureau of Weights and Measures, BIPM) 
给 出 的 ， 即 它 应 该 是 这 样 一 种 方法 : 具有 最 高 的 计量 质量 ， 其 操作 可 以 完全 描述 和 理解 ， 其 
测量 不 确定 性 完全 可 被 国际 单位 制 (SI) 记录。 基准 方法 的 例子 包括 了 滴定 法 和 重量 法 。 可 
实现 计量 追溯 的 已 使 用 的 方法 是 同位 素 稀 释 质 谱 光 谱 和 中 子 活化 分 析 。 实 现 分 析 方 法 的 可 和 追 
溯 性 的 一 般 途 径 如 图 4-26 所 示 。 从 图 可 以 看 到 ， 要 做 到 实现 一 个 基准 方法 的 可 追溯 性 
(traceability) 的 确 不 是 很 容易 ， 它 不 但 需要 充分 地 理解 所 用 分 析 方 法 的 每 一 个 步骤 ， 每 一 
种 参考 物 、 标 准 物 和 化 学 试剂 的 准确 用 途 ， 而 且 ， 对 分 析 方 法 的 各 种 参数 、 用 于 测量 影响 量 
的 仪器 设备 及 产生 不 确定 度 的 来 源 都 必须 有 充分 的 理解 ， 才 有 可 能 建立 起 一 个 可 进行 计量 淹 
源 的 基准 方法 。 


































































































定义 测量 物 


| 
决定 参考 物质 和 单位 
选择 方法 
校 验方 法 和 建立 测量 方程 
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对 测量 方程 中 的 参数 建立 追 洲 
e| 
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考虑 其 他 有 意义 方程 的 追溯 


ENMESET LASS 


于 测量 影响 量 的 校正 设备 
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记录 结果 、 不 确定 度 和 可 追溯 性 
























































CENE 一 个 实现 分 析 方法 的 可 追溯 性 的 策略 示意 图 


习惯 上 人 们 认为 ， 特 定 的 分 析 方法 应 通过 参考 物质 建立 到 基准 方法 的 计量 溯源 性 。 建 立 
可 追溯 性 的 本 质 就 是 要 使 被 测量 物 可 被 十 分 明确 地 指定 。 用 于 报告 结果 的 单位 也 应 是 已 知 和 
可 接受 的 ， 国 际 单位 制 为 首选 。 所 使 用 的 方法 必须 是 被 验证 过 的 ， 而 且 如 果 按 照 书面 程序 使 
用 ， 所 产生 的 结果 亦 应 该 是 满足 分 析 目 标的 。 在 该 方法 的 程序 中 ， 使 用 的 玻璃 器 具 类 亦 将 特 
别 指定 ， 例 如 某 类 的 移 液 管 和 容量 瓶 ， 这 样 就 可 做 到 指定 的 公差 。 仪 器 亦 将 定期 校准 ， 它 们 
的 所 得 结果 也 必须 每 天 校 验 。 对 于 所 用 的 化 学 物质 ， 都 将 是 已 知 纯度 的 化 学 物质 或 参考 物 
质 。 在 测量 方程 中 出 现 的 一 切 物质 应 均 可 跟踪 。 此 外 ， 不 出 现在 测量 方程 ， 但 有 可 能 影响 结 
果 的 其 他 变量 亦 应 可 追溯 。 如 果 分 析 方 法 要 求 结 果 的 一 致 性 ， 则 通常 还 需要 对 温度 、 时 间 和 
pH 值 等 因素 都 进行 控制 ， 对 这 样 的 情况 ,那么 它们 也 必须 是 可 追溯 的 。 

在 化 学 分 析 中 ， 计 量 可 追溯 性 的 实现 方法 一 般 说 来 有 两 种 : 中 通过 使 用 纯化 学 物质 作为 
标准 ;外 采 用 典型 的 基质 物质 ， 在 这 种 基质 中 加 入 了 待 分 析 物 且 进 行 了 特征 化 。 后 一 种 类 型 
的 标准 物质 被 称 为 基质 参考 物质 (matrix reference material) 。 所 以 ， 从 样品 基质 中 回收 的 
分 析 物 被 确定 为 分 析 方 法 需要 验证 的 一 部 分 。 
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1. 计量 可 追溯 性 (metrological traceability) 

从 前 面 的 介绍 可 知 ， 对 于 需 计 量 渊源 的 对 象 ， 可 使 用 纯化 学 物质 和 参考 物质 来 实现 其 可 
追溯 性 。 实 际 上 ， 参 考 物质 就 是 作为 传递 标准 (transfer standards) 。 在 不 可 能 有 获得 国家 
或 国际 标准 或 基准 方法 (primary method) 时 ， 就 可 使 用 传递 标准 。 传 递 标准 因 其 包含 了 标 
准 测 量 值 ， 既 用 于 校准 测量 系统 ， 又 可 用 于 方法 校 验 。 它 们 还 可 以 用 于 识别 。 传 递 标准 的 例 
子 包括 参考 物质 〈 见 下 文 ) 、 物 理 标准 〈 质 量 ， 温 度 ) 和 参考 值 (原子 量 )。 参 考 物 质 是 一 个 
特殊 类 别 的 通用 术语 用 于 化 学 计量 的 物质 作为 传递 标准 。 现 已 有 几 个 最 近 发 表 的 国际 标准 化 
组 织 的 指导 文件 (ISO Guide 350 92 ， 而 有 关 此 定义 的 一 些 讨论 也 可 以 文献 中 找到 [54 。 下 
面 就 将 分 别 对 参考 物质 和 纯化 学 物质 加 以 介绍 。 

2. 参考 物质 (reference material, RM) 

定义 如 下 : 参考 物质 为 一 种 充分 均匀 和 足够 稳定 的 物质 ， 而 且 ， 它 已 建立 了 一 个 或 多 个 
可 在 测量 过 程 中 适应 其 预期 用 途 的 属性 。 注 意 到 在 此 定义 之 上 ， 还 隐 含 着 : 

O 参考 物质 (RM) 是 一 个 通用 术语 。 

© 属性 可 以 是 定量 的 或 定性 的 ， 例 如 : 物质 的 身份 或 物种 。 

C 其 用 途 可 包括 测量 系统 的 校准 、 评 估 一 个 测量 过 程 ， 将 值 分 配给 其 他 材料 和 质量 
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@ 参考 物质 (RM) 只 能 用 于 一 个 给 定 的 测量 、 一 个 单一 的 目的 。 这 一 点 是 非常 重 
的 ， 因 为 它 强 调 的 是 ， 该 参考 物质 用 于 方法 验证 时 ， 就 不 能 再 次 使 用 方法 校正 的 常规 使 用 用 
途 。 相 同 物 质 的 材料 可 以 使 用 ， 但 它 需 要 来 自 不 同 的 供应 商 。 同 样 的 物质 不 能 既 用 于 定 标 目 
的 ， 然 后 又 作为 质量 控制 物质 。 参 考 物 质 (RM) 的 例子 包括 : 

(OD 纯 物 质 参考 物质 “具有 一 个 标识 纯度 的 农药 、 多 环 芳香 烃 和 邻 茶 二 甲酸 氧 钾 。 

(2) 标准 溶液 ” 镍 的 酸 溶液 ， 具 有 一 个 标识 的 质量 /体积 浓度 ; 氧 氧 化 钠 浴 液 ， 具 有 一 
个 标识 的 摩尔 浓度 ; 农药 溶液 ， 具 有 一 个 标识 的 质量 /体积 浓度 。 

(3) 基质 参考 物 - 天 然 物 质 ”具有 一 个 标识 浓度 的 河流 沉积 物 中 的 金属 ; 具有 标识 脂肪 
含量 的 奶粉 和 具有 标识 微量 元 素 含 量 的 息 膏 。 

(4) 基质 参考 物 -加 标 物质 ”添加 微量 元 素 的 湖水 和 加 入 有 机 污染 物 的 牛奶 。 

(5) 物理 化 学 标准 ” 茶 甲 酸 具 有 一 定 的 熔点 ， 对 二 甲 茶 用 一 个 规定 的 闪光 点 ， 具 有 一 个 
标识 粒度 分 布 的 沙子 和 具有 标识 分 子 量 分 布 的 。 

(6) 已 论证 的 参考 物质 (certified reference material, CRM) 定义 如 下 : 参考 物质 具 
有 一 个 重要 特征 属性 ， 即 此 物 具 有 计量 校 验 的 一 个 或 多 个 指定 的 特殊 性 质 ， 并 伴随 有 一 证 
书 ， 该 证 书 对 指定 属性 的 值 及 与 其 关联 的 不 确定 性 和 计量 溯源 都 给 出 了 明确 陈述 。 

这 个 定义 还 应 包括 如 下 注释 : 

CD 数值 的 概念 还 包括 了 定性 属性 ， 例 如 身份 或 序列 。 这 样 的 属性 的 不 确定 性 可 能 被 表 
示 为 概率 。 

© 对 参考 物质 的 生产 和 认证 ， 有 关 计 量 的 校 验 过 程 的 文件 ， 均 在 国际 标准 化 组 织 的 指 
导 文 件 〈ISO Guide 340 2 和 国际 标准 CISO Guide 35)L404 中 给 出 。 

@ 国际 标准 化 组 织 的 指导 文件 (ISO Guide 31) 对 证 书 内 容 给 出 了 指导 意见 [4] 。 一 些 
参考 物质 生产 商 / 供 应 商 使 用 不 同 的 名 称 来 描述 他 们 的 材料 。 例 如 ,标准 参 考 物质 
(standard reference material，SRM) 就 是 由 美国 国家 标准 和 技术 研究 所 (National Institute 
of Standards and Technology，NIST) 发 布 的 认证 参考 物质 ， 而 欧洲 的 参考 物质 (European 
Reference Materials，ERMS) 就 是 由 三 个 欧洲 组 织 ， 即 德国 联邦 材料 研究 与 测试 (Federal 
Institute for Materials Research and Testing，BAM) ， 欧 洲 委 员 会 比利时 联合 研究 中 心 的 参 
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考 物 质 与 测量 所 (European Commission. Joint Research Centre. Institute for Reference 
Materials and Measurements, IRMMD 和 英国 的 LGC, 一 起 联合 发 布 的 已 论证 的 参考 物质 
(CRM), 

认证 的 参考 物质 有 许多 不 同 的 用 途 ， 包 括 : 

。 建立 分 析 结 果 的 计量 可 追溯 性 。 

。 确认 物质 的 身份 。 

。 在 常规 分 析 条 件 下 ， 对 测量 过 程 进 行 校准 和 验证 。 

。 验证 标准 方法 的 正确 应 用 。 

。 开发 和 验证 新 的 测量 方法 。 

。 定义 其 他 材料 的 值 ， 可 作为 二 级 标准 /校准 。 

。 用 于 内 部 质量 控制 和 质量 保证 计划 。 

认证 的 参考 物质 的 发 展 和 表征 是 一 个 昂贵 的 过 程 。 正 因为 如 此 ， 强 调 使 用 认证 的 参考 物 
质 通 常 是 一 个 方法 的 初步 验证 。 虽 然 很 少 使 用 认证 的 参考 物质 于 常规 质量 控制 ， 但 用 它 “ 校 
准 ” 的 其 他 较 便 宜 的 二 次 标准 材料 ， 可 以 用 于 常规 质量 控制 。 

C) 化 学 标准 品 是 指 纯度 被 很 好 定义 了 的 化 学 品 (通常 是 单质 化 学 物质 )。 

化 学 标准 品 以 两 种 不 同 的 方法 用 于 校准 。 它 们 可 以 用 在 “外 部 ”， 在 那里 它们 从 样品 中 
被 隔离 出 来 亦 可 用 在 “内 部 ”， 标 准 物质 被 加 入 到 样品 之 中 ， 并 和 样品 一 起 在 同一 时 刻 测 
量 ， 比 如 作为 一 个 单一 的 “ 富 集 ” 样 品 。 这 些 通常 被 称 为 “外 标 法 ”和 “内 标 法 ”。 


第 四 市 ”分 析 量 测 的 数据 统计 评价 与 假设 检验 


分 析 化 学 中 我 们 获得 大 量 的 分 析 数 据 ， 面 对 这 些 数 据 ， 分 析 工 作者 所 需要 回答 的 是 ， 这 
些 数据 告诉 了 我 们 什么 ， 我 们 又 能 从 这 些 数据 中 得 到 什么 样 的 结论 ， 而 且 还 必须 清楚 ， 从 统 
计 学 的 角度 来 看 ， 我 们 能 有 多 大 把 握 《〈 置 信 度 ) 说 这 样 的 结论 是 正确 的 。 比 如 ， 有 人 发 展 了 
一 个 新 方法 ， 它 需要 与 已 有 的 分 析 方 法 进行 比较 ， 通 过 在 相同 条 件 下 测量 ， 得 到 了 两 套数 
据 ， 接 着 就 需 比 较 这 两 个 方法 的 优 劣 或 者 说 这 两 种 方法 是 否 存在 显著 性 差异 ， 这 也 就 是 分 析 
量 测 的 数据 统计 评价 与 假设 检验 的 任务 了 。 

在 本 节 ， 将 首先 对 分 析 结 果 的 两 类 错误 及 其 统计 判决 给 出 必要 的 讨论 ， 接 着 将 对 分 析 方 
法 的 检测 下 限 的 确定 和 Bayes 统计 方法 、 化 学 量 测 数据 的 统计 假设 检验 [5 〈 包 括 c 检验 与 
下 检验) 进行 介绍 ， 并 结合 实际 例子 加 以 必要 的 说 明 。 


一 、 分 析 结 果 的 两 类 错误 及 其 统计 判决 


在 分 析 化 学 中 ， 经 常 要 作出 统计 判决 ， 如 定性 分 析 中 的 是 与 不 是 、 分 析 方 法 与 分 析 仪 器 
的 检测 下 限 、 产 品质 量 是 合格 还 是 不 合格 等 ， 特 别 在 化 学 计量 学 的 模式 识别 中 ， 大 量 的 分 类 
与 判别 问题 ， 如 是 A 类 还 是 也 类 等 ， 都 属于 统计 判决 分 析 。 

4-27 示 出 了 分 析 化 学 中 两 类 错误 的 示意 图 。 在 图 4-27 中 ， 可 以 看 到 存在 两 个 分 布 ， 
一 个 是 P(y1) ， 男 一 个 是 P(ys) 。 如 果 是 属于 分 析 仪 器 的 检测 下 限 的 问题 ， 则 已 (yi ) 可 以 
是 试剂 空白 (blank) 测量 的 分 布 ， 而 PCy) 则 可 以 是 最 低 可 检测 到 的 分 析 物 Canalyte) W 
量 的 分 布 ， 如 果 是 属于 模式 识别 的 问题 ， 则 PO 可 以 是 A 类 样本 测量 的 分 布 ， 而 PC(y2) 
则 可 以 是 B 类 样本 测量 的 分 布 。 在 图 中 还 可 看 到 两 类 错误 (图 中 的 阴影 部 分 )， 一 类 为 a 类 
错误 ， 一 类 为 8 类 错误 。 从 图 中 也 可 以 看 出 ， 这 两 类 错误 是 判决 界 的 函数 ， 在 子 图 a) 中 
a 和 有 8 类 错误 大 小 相当 ， 随 着 判决 界 的 左 移 ， 在 子 图 (bo 中 8 类 错误 则 显著 地 大 于 a 类 错 
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误 。 假 若是 属于 分 析 仪器 的 检测 下 限 的 问题 , P Cy? 是 试剂 空白 Clank) 测量 的 分 布 ， 则 a 
类 错误 是 以 假 为 真 的 错误 ， 即 因 当 所 得 信号 大 于 判决 界 时 ， 判 决 它 是 分 析 信 和 号， 而 实际 它 是 
来 自 试剂 空白 的 分 布 ， 在 分 析 化 学 中 ， 称 之 为 第 一 类 错误 ; 反之 ，8 类 错误 为 第 二 类 错误 ， 
即 以 真 为 假 的 错误 ， 实 因 所 得 信号 小 于 判决 界 时 ,判决 它 是 分 析 信 号 空白 ， 而 它 却 来 自 
Pl(y:)， 是 最 低 可 检测 到 的 分 析 物 测量 的 分 布 ， 犯 了 以 真 为 假 的 错误 。 注 意 到 ， 这 两 类 错误 
还 是 相互 依存 的 ， 如 果 想 降低 一 类 错误 ， 另 一 类 错误 却 会 上 升 ， 如 在 子 图 (bo 中 将 判决 界 
向 左 移 ， 以 降低 o 类 错误 ,但 8 类 错误 却 上 升 很 快 ， 总 错误 率 反 倒 上 升 了 。 在 分 析 化 学 的 实 
践 中 ， 对 两 类 错误 的 承受 程度 是 随 实际 情况 的 变化 而 变化 的 ， 而 且 ， 两 类 错误 的 关系 有 以 下 
两 点 值得 引起 必要 的 注意 : Dete 不 一 定 等 于 10026; 名 在 样本 容量 确定 的 情况 下 , a 与 8 
不 能 同时 增加 或 减少 。 
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分 析 化 学 中 两 类 错误 的 示意 图 











在 统计 假设 检验 中 ， 同 样 会 发 生 “ 弃 真 ”( 以 真 为 假 ) 和 “ 取 伪 ”( 以 假 为 真 ) 的 两 类 错 
误 。 错 误 无 非 只 有 两 种 情况 ， 在 统计 学 中 ， 一 般 称 为 工 类 错误 和 下 类 错误 。 第 一 类 错误 CI 
类 错误 ) 也 称 为 a 错误 (false positive，FP)， 是 指 当 原 假 设 〈 互 ,) 正确 时 ， 拒 绝 互 。 所 犯 
的 错误 。 这 意味 着 决策 者 的 结论 并 不 正确 ， 即 观察 到 了 实际 上 并 不 存在 的 处 理 效应 。 第 二 类 
错误 XER) 也 称 为 8 错误 (false negative，FEN)， 是 指 原 假设 错误 时 ， 反 而 接受 原 假 
设 的 情况 ， 即 没有 观察 到 存在 的 处 理 效应 。 见 表 4-10, 


统计 假设 检验 的 几 种 情况 


















































实际 情况 
项 目 
Ho 正确 HH 错误 
拒绝 Ho I 类 错误 正确 
结论 
接受 Ho 正确 于 类 错误 














所 以 ,在 化 学 模式 识别 中 ， 一 般 都 要 求 绘 出 ROC 曲线 (receiver operating characteristic 
curve), ROC 曲线 又 称 为 感受 性 曲线 (sensitivity curve) 。 即 随 着 一 类 错误 变化 的 条 件 下 ， 
男 一 类 正确 率 的 变化 曲线 ， 以 对 判别 函数 有 更 深入 的 了 解 。 在 一 个 二 分 类 模型 中 ,对 于 所 得 
到 的 连续 结果 ， 假 设 已 确定 一 个 阔 值 ， 比 如 0.6， 大 于 这 个 值 的 实例 划 归 为 正 类 ， 小 于 这 个 
值 则 划 到 负 类 中 。 如 果 减 小 阔 值 ， 减 到 0. 5， 固 然 能 识别 出 更 多 的 正 类 ， 也 就 是 提高 了 识别 
出 的 正 类 占 所 有 正 类 的 比例 ， 即 提高 了 真正 结果 率 (true positive rate, TPR), 但 同时 也 将 
更 多 的 负 实 例 当 作 了 正 实例 ， 即 提高 了 假 正 结 果 率 (false positive rate，FPR)。 为 了 形象 化 
这 一 变化 ， 在 此 引入 ROC 曲线 ，ROC 曲线 可 以 用 于 评价 一 个 分 类 器 。 一 般 说 来 ，ROC fi 
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分 析 测 量 数 据 的 统计 评 
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线 下 方 的 面积 (area under the ROC curve. AUC) 提供 了 评价 模型 平均 性 能 的 另 一 种 方法 。 
































如 果 模 型 是 完美 的 ， 那 么 它 的 AUC 王 1， 如 细 














模型 是 个 简单 的 随机 猜测 模型 ， 那 么 它 的 


AUC=0.5， 如 果 一 个 模型 好 于 另 一 个 ， 则 它 的 曲线 下 方面 积 相 对 较 大 。ROC 曲线 和 它 相 


关 的 比例 见 图 4-28, 


等 错误 率 点 
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ASI 正确 率 
























































FE 结果 (true positive, TP) 
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吉 果 (true negative, 
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假 正确 率 qd 
假 正 结果 (false positive, FP) 假 负 结果 (false negative, FN) 
(a) (b) 
ROC 曲线 和 它 相 关 的 比率 
(a) 理想 情况 下 ， 真 正 结果 率 (TPR) 应 该 接近 1， 假 正 结果 率 (FPR) 应 该 接近 0。ROC 曲线 上 的 
每 一 个 点 对 应 于 一 个 靖 值 或 判决 界 ， 对 于 一 个 分 类 器 ， 每 个 阔 值 下 会 有 一 个 真正 结果 率 和 假 正 结果 率 。 比 
如 阔 值 或 判决 界 最 大 时 ，TP=FP=0， 对 应 于 原点 ; 浆 值 或 判决 界 最 小 时 ，TN=FN 王 0， 对 应 于 右上 角 的 
点 (1，1); 
(b) P 和 NN 得 分 不 作为 特征 间距 离 d 的 一 个 函数 ， 随 着 阔 值 增加 ，TP FP 都 增加 





有 了 这 些 基 本 概念 和 知识 ， 下 面 就 以 此 对 分 析 方 法 〈 或 分 析 仪 器 ) 的 检测 下 限 的 确定 进 


行 较为 详细 的 讨论 。 
二 、 分 析 方 法 的 检测 下 限 








定性 分 析 的 任务 是 检测 茶 种 成 分 在 试 样 中 是 否 存在 。 定 性 分 析 中 能 检测 的 最 低 含 量 ， 以 
“检测 限 ” 表 征 ， 有 关 分 析 方 法 检测 限 的 定义 ， 曾 是 分 析 化 学 中 长 期 争议 的 





与 应 月 








化 学 联合 会 (IUPAC) 建议 的 检测 限定 义 55 认 为 ， 以 浓度 cy RAH 





问题 。 国 际 纯粹 
Eft qu 表述 的 检 


测 限 ， 是 由 用 给 定 的 分 析 方 法 能 以 一 定 的 准确 度 检 出 的 最 小 测度 zz 导出 的 。 这 一 概念 后 被 


简化 为 “检测 限 是 给 定 分 析 方 法 能 可 笔 地 检 出 的 最 低 


述 定义 中 的 “一 定 的 确定 度 ” 及 “可 靠 地 检 出 ”这 些 概 念 只 能 建立 在 统计 到 


此 ， 分 析 检 验 理论 是 定性 检定 的 统计 理论 基础 。 


在 统计 检测 理论 基础 上 ， 可 给 出 分 析 方 法 检测 限 的 严谨 定义 。 设 有 分 析 信 号 y. H 


值 y 与 噪声 或 误差 8 UR. 
y =q +ò 


Km" GE 











国 化 学 会 )G0]， 
E 论 基础 之 上 ， 因 


任何 度量 上 





Hd 


ERI 


(4-27) 


式 中 , 6 服从 均值 为 零 ， 标 准 差 为 o 的 正 态 分 布 ， 即 8 一 N(0，c) 。 要 检测 这 一 分 析 信 


Pd 
T 


号 ， 需 考察 


白 信号 与 分 析 信 号 两 者 的 概率 密度 函数 





。y 的 产 4 


E 有 两 个 来 源 : 待 测 组 分 的 存 


在 (其 浓度 c>0)， 分 析 仪 器 的 噪声 〈 仪 器 噪声 ) 和 /或 分 析 反 应 的 空白 值 〈 化 学 噪声 ) ， 即 


c=0 时 的 空白 信号 yo 。 以 最 简单 的 线性 模型 为 例 ，y 


y — yo bc 


Tc 的 关系 可 写成 


(4-28) 





| :ao | 分 析 化 学 手册 O 化 学 计量 学 


式 中 ,5 为 线性 校正 模型 中 的 斜率 或 灵敏 度 。 
从 统计 上 讲 ， 模 型 涉及 两 个 概率 密度 函数 ， 空 白 信 号 的 概率 密度 函数 Po Cy) 是 与 c—0 
对 应 的 ; P;(y) 则 是 对 应 于 分 析 信 号 的 概率 密度 函数 (c 二 0， 见 图 4-29), y — yo 为 净 分 析 


信号 。 




















空白 与 分 析 信号 的 概率 密度 函数 


确定 分 析 检 测 限 等 价 于 选择 下 述 两 种 假设 判决 之 一 : 

Ho 测 得 的 信号 属于 分 布 PuCy) ， 即 信号 来 源 于 空白 噪声 ， 判 决 待 测 的 组 分 不 
存在 。 

Hi 测 得 的 信号 属于 分 布 P;(y) ， 即 信号 来 源 于 待 测 组 分 ， 判 决 待 测 的 组 分 存在 。 

进行 Hol 互 ; 的 选择 时 ， 需 有 一 定 的 统计 检测 准则 ， 以 确定 信号 指标 轴 上 某 一 个 被 称 
为 判决 水 平 或 检测 水 平 yy 的 值 ， 作 为 将 信号 域 划分 为 Ro 和 Ri1 的 分 界 ( 见 图 4-29), y yk 
时 (CRo 域 ) 选择 Ho. y>y f RW AA 及 1， 这 种 选择 正确 与 否 ， 可 用 下 述 概率 
描述 : 

(1) 根据 分 析 信 号 选择 Ho. ， 且 待 测 组 分 确实 不 存在 ， 其 概率 Poo 为 




















Poo -[" P.Gody -|， PoCy | Ho)dy (4-29) 


AP, PoCGy | Ho) 表示 五" 是 正确 的 条 件 下 信和 号 的 条 件 概 率 分 布 ， 亦 记 为 PoCy) ， 下 
标 0 表示 信和 号 来 源 于 空白 噪声 。 
(2) 待 测 组 分 确实 不 存在 ， 误 选择 Hi, 〈 第 一 类 错误 ， 即 以 假 为 真 )， 其 概率 Pio 为 








Po=| PuCy)dy 一 | Poly | Ho)dy=1— Po (4-30) 
Yk 1 


(3) 待 测 组 分 确实 存在 ， 而 误 选 择 Ho (第 二 类 错误 ， 即 以 真 为 假 )， 其 概率 Po 为 





Pa =|" P.G0dy =|, Pol HDdy 





在 互 ; 是 正确 的 条 件 下 ， 信 号 的 条 件 概 率 记 为 P;(y) ， 下 标 i 表示 存在 待 测 组 分 。 
(4) 待 测 组 分 确实 存在 ， 选 择 Hi. HER Pu 


Pu =| Pow], Pi(y | Hi)dy 21— Po (4-31) 
yk 1 


在 信号 检测 理论 中 ， 提 出 了 许多 检测 准则 ， 其 中 较 有 代表 性 的 是 Bayes 准则 。Bayes W 
MARÉ HUI 互 ; 的 验 前 概率 g 和 1 一 g， 并 需 给 出 上 述 四 种 决策 下 的 风险 Co. Cio. 
Coi. Cn ， 这 样 就 可 以 计算 平均 风险 C: 


C—q [co] PoCy)dy +Co| PoCy)dy| 十 (1 一 9g) [o]. P: GOdy + 加 | P. GO dy 


Y P 


(4-32) 




















— 


使 得 式 (4-32) 的 平均 风险 最 小 的 判决 界 即 可 视 为 Bayes 判决 检测 限 。 

在 分 析 检 验 中 较 适 宜 采 用 的 判决 准则 是 Neyman-Pearson 准则 !] 。 在 分 析 检 测 中 ， 例 
如 在 产品 质量 检验 中 ， 如 根据 有 某 种 杂质 存在 于 产品 中 作出 “产品 不 合格 ”的 判决 ， 则 生产 
必须 停止 ， 这 时 如 系 误 判 ， 将 造成 一 定 损失 ,应 限制 Pi 在 一 定 范 围 之 内 。Neyman- 
Pearson 准则 的 基本 思想 即 是 ， 事 先 赋予 Pio 某 一 给 定数 值 以 确定 判决 水 平 yk。 
如 设 分 析 信 和 号 与 空白 噪声 均 服 从 的 正 态 分 布 ， 则 有 





Pac Pioni = JE] exp[ Co PEU CS ds (4-33) 
yk yk 


式 中 ，y0 是 空白 信号 ORE) 的 均值 ; o 为 其 标准 差 。 作 变换 , S z—(y—yj/o ， 并 
id (yt 一 yo)/o 2H zy ， 得 





Co 
z 


Pio=(1/ m| expb( 一 =2/2)dy 


k 





则 判决 水 平 〈 或 称 检 测 水 平 ) yx 为 

Yk yo 十 zkG 
即 当 y<y if CRo 域 ) 判决 Ho, BWAR H 。 在 此 对 于 分 析 信 号 y， 都 假设 其 标准 差 与 
空白 信号 的 标准 差 相 同 ， 即 均 为 c。 如 平行 测定 2 次， 得 分 析 信 号 的 均值 yoo ， 其 标准 差 
YE o, —o/ An 。 

















Yki S yo 十 zka/ n. (判决 Ho) 
XkGo > yo 十 zka/ An. (判决 Hı) 


X TEL RT H Z6 E HJ Pw 值 借 Laplace 函数 或 从 标准 正 态 分 布 表 中 求 出 。 例 如 ，Pio 取 0.01， 即 
第 一 类 错误 概率 为 1% 时 ， 





X M 


i 





oo 


Pio —0. 01 -a/ v| expC— z? /2)dz —1— F(z) 
k 





由 标准 正 态 分 布 表 可 查 出 zk 一 2.32， 已 知 空白 信号 均值 yo KERE o. BI n] pA E Ak 
平 ， 在 给 定 的 Pio 值 的 条 件 下 作出 竺 检测 物质 是 否 存在 的 判决 。 

在 统计 检测 理论 基础 上 ， 可 给 出 分 析 方 法 检测 限 的 严谨 定义 。 现 试 将 分 析 信 号 y 与 噪 
FE yo 的 概率 分 布 图 与 对 应 的 待 测 物 浓 度 相 比较 加 以 考察 〈 见 图 4-30)。 首 先 按 Neyman- 
Pearson 准则 给 定 Pio 值 以 找 出 y= 二 yj 判决 线 ， 由 此 算出 xz 及 判决 水 平 或 检测 水 平 y, fü. 
yo 及 o 由 实验 求 出 




















Yk 一 y0 十 zkay 


在 yk 确定 后 ， 从 不 同 均值 y 对 应 的 分 布 曲线 中 ， 选 取 其 与 y 二 yx 判决 直线 相交 给 出 的 Pi 
等 于 (P11)a 的 曲线 ,这 条 曲线 的 均值 yy 所 对 应 的 ca 即 为 所 求 的 浓度 检测 限 。 不 用 图 解法 
也 可 由 检测 特性 函数 关系 直接 计算 与 Pi 对 应 的 <， 亦 即 检 测 限 ca。 显 然 ， 这 样 定义 的 检测 
限 ， 明确 地 给 定 了 正确 检 出 的 概率 Pi 和 错误 检 出 的 概率 Pi, Mm Poo 二 1 一 Pio, Po1—1— 
Pn， 这 样 ， 前 面 所 述 的 四 种 概率 都 是 完全 确定 的 。 分 析 化 学 文献 中 一 般 定义 检测 限时 所 称 
“可 靠 地 检 出 ”“ 以 一 定 的 确定 度 检 出 ”等 概念 在 这 里 有 了 明确 的 数量 界限 。 

检测 限 的 另 一 种 表示 方法 是 给 定 Pu 及 Pio PAIS] r, SIGN ra. 
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分 析 方法 检测 限 的 定义 


rac Qa - y/o — za — zk 
"4 实际 就 是 与 检测 限 对 应 的 信 噪 比 ， 或 称 可 靠 地 检 出 待 测 组 分 所 需 的 最 低 信 品 比 。 噪 声 是 一 
客观 存在 的 事实 ， 在 给 定 的 噪声 下 ， 信 品 比 完全 由 待 测 物 浓 度 大 小 决定 。 如 信 品 比 低 于 ru， 
检 出 将 不 可 能 按 给 定 的 Pi 、Pio 值 实现 。 
与 检测 限 x 对 应 的 分 析 信 号 ya 是 


yd 一 yo 十 rua 一 yo 十 (zd 一 zk)a 

















pad 





分 析 化 学 文献 中 一 般 写成 
yd 一 yo 十 天 c 


4 K 值 的 确定 ， 长 期 未 取得 一 致意 见 。 由 上 述 分 析 可 见 ，K 的 物理 意义 即 是 与 检测 限 对 
应 的 信 噪 比 。 而 无 论 是 检测 限 或 信 噪 比 的 数值 ， 除 与 分 析 方 法 本 身 的 特性 如 y。( 品 声 均 值 ) 
及 o (标准 差 ) 有 关外 ， 还 取决 于 要 求 的 Pi 、Pio 及 分 析 系 统 的 检测 特性 函数 。 一 般 认 为 
K 应 取 3， 可 以 证 明 ， 此 时 当 Pio 足 够 取 O. 001) ， 即 犯 第 一 类 错误 的 概率 很 小 时 ， 但 Pu 
仅 0.50， 有 50% 的 概率 犯 第 二 类 错误 。 也 就 是 说 ，K 的 确定 与 对 分 析 问 题 的 要 求 有 关 ， 如 
果 要 求 犯 第 一 类 错误 〈 以 假 为 真 ) 的 概率 要 小 ， 但 对 犯 第 二 类 错误 (以 真 为 假 ) 的 概率 无 严 
格 要 求 时 ，K 可 以 取 小 一 些 ; 反之 ， 如 果 要 求 犯 第 二 类 错误 的 概率 亦 必须 小 时 ，K 值 则 必 
须 足 够 大 。 


三 、 化 学 测量 数据 的 统计 检验 


假设 检验 (hypothesis testing) 是 数理 统计 学 中 根据 一 定 假设 条 件 由 样本 推断 总 体 的 一 
种 方法 。 具 体 做 法 是 ， 根据 问题 的 需要 对 所 研究 的 总 体 作 某 种 假设 ， 记 作 Ho. C JL 4- 
10); 选取 合适 的 统计 量 ， 这 个 统计 量 的 选取 要 使 得 在 假设 及 ,成 立时 ， 其 分 布 为 已 知 ; 由 
实测 的 样本 ， 计 算出 统计 量 的 值 ， 并 根据 预先 给 定 的 显著 性 水 平 进行 检验 ， 作 出 拒绝 或 接受 
假设 五 "的 判断 。 常 用 的 假设 检验 方法 有 检验 法 、t 检验 法 、X 检验 法 、 下 检验 法 等 。 

假设 检验 的 基本 原理 是 先 对 总 体 的 特征 作出 某 种 假设 ， 然 后 通过 抽样 研究 的 结果 进行 统 
计 推 理 ， 对 此 假设 应 该 被 拒绝 还 是 接受 作出 推断 假设 检验 ， 又 称 统计 假设 检验 ( 注 : 显著 性 
检验 只 是 假设 检验 中 最 常用 的 一 种 方法 ) ， 是 一 种 基本 的 统计 推断 形式 ， 也 是 数理 统计 学 的 
一 个 重要 的 分 支 ， 是 用 来 判断 样本 与 样本 、 样 本 与 总 体 的 差异 是 由 抽样 误差 引起 还 是 本 质 差 
别 造成 的 统计 推断 方法 。 由 于 化 学 测量 数据 中 有 很 多 需要 进行 统计 推断 ， 如 出 现 一 个 新 方 
法 ， 与 已 有 方法 相 比 ， 此 法 所 得 结果 是 否 优 于 已 有 方法 ?这 就 需要 进行 统计 检验 ; 此 外 ， 已 
知 某 产品 的 质量 控制 是 要 将 某 化 学 物质 的 量 控制 在 某 一 数值 附近 ， 现 测 得 该 产品 的 平均 值 与 
它 存在 一 定 差别 ， 该 差别 可 不 可 以 接受 ,它们 之 间 是 否 存 在 显著 性 差异 ? 这 也 需要 进行 统计 
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检验 。 所 以 ， 统 计 检 验 在 分 析 化 学 中 是 十 分 重要 的 。 

值得 指出 的 是 ， 假 设 检验 的 基本 思想 是 小 概率 反 证 法 思想 。 小 概率 思想 是 指 小 概率 事件 
(P<0. 01 2X P<0. 05) 在 一 次 试验 中 基本 上 不 会 发 生 ， 如 发 生 了 ， 则 说 明 此 事件 不 可 靠 。 
此 外 ， 反 证 法 思想 是 先 提 出 假设 〈 检 验 假设 互 ,)， 再 用 适当 的 统计 方法 确定 假设 成 立 的 可 
能 性 大 小 ， 如 可 能 性 小 ， 则 认为 假设 不 成 立 ; 若 可 能 性 大 ， 则 还 不 能 认为 假设 成 立 。 

假设 是 否 正 确 ， 要 用 从 总 体 中 抽出 的 样本 进行 检验 ， 与 此 有 关 的 理论 和 方法 ， 构 成 假设 
检验 的 内 容 。 设 A 是 关于 总 体 分 布 的 一 项 命题 ， 所 有 使 命题 A 成 立 的 总 体 分 布 构成 一 个 集 
合 互 。， 称 为 原 假设 〈 常 简称 假设 ) 。 所 有 使 命题 A 不 成 立 的 总 体 分 布 构成 另 一 个 集合 H., 
称 为 备 择 假 设 。 如 果 互 o 可 以 通过 有 限 个 实 参 数 来 描述 ， 则 称 为 参数 假设 ， 和 否则 称 为 非 参数 
假设 。 对 一 个 假设 互 " 进 行 检 验 ， 就 是 要 制定 一 个 规则 ， 使 得 有 了 样本 以 后 ， 根 据 这 规则 可 
以 决定 是 接受 它 (承认 命题 A 正确 )， 还 是 拒绝 它 (否认 命题 A 正确 )。 这 样 ， 所 有 可 能 的 
样本 所 组 成 的 空间 〈 称 样本 空间 ) 被 划分 为 两 部 分 HA 和 HR (HA 的 补 集 )， 当 样本 XC 
HA if, ZZR Ho; 当 zEHR 时 ， 拒 绝 假设 五 ,。 集 合 HR 常 称 为 检验 的 拒绝 域 ，HA 
称 为 接受 域 。 因 此 选 定 一 个 检验 法 ， 也 就 是 选 定 一 个 拒绝 域 ， 故常 把 检验 法 本 身 与 拒绝 域 
HR 等 同 起 来 。 

在 假设 检验 中 ， 由 图 4-29 示 出 的 为 单 边 检验 ， 但 由 图 4-31 示 出 的 是 双边 检验 。 因 此 ， 
从 统计 检验 来 说 ， 就 涉及 双边 检验 和 单 边 检验 问题 。 在 实践 中 采用 何 类 检验 是 由 实际 问题 的 
性 质 来 决定 的 。 一 般 可 以 这 样 考虑 : 
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240.65 dive 260 274.7 279.35 x 
5% 显 车 必 水平， 
1% 显 著 性 水 平 

可 接受 区 域 和 显著 性 水 平 
双边 假设 检验 示意 图 
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CD 双边 检验 。 如 果 检 验 的 目的 是 检验 抽样 的 样本 统计 量 与 假设 参数 的 差 数 是 否 过 大 
(无 论 是 正方 向 还 是 负 方 向 )， 就 把 风险 平分 在 右 侧 和 左 侧 。 比 如 显著 性 水 平 为 0.05， 即 概 
率 曲 线 左右 两 侧 各 占 一 半 ， 即 0. 025。 

(2) 单 边 检验 。 这 种 检验 只 注意 估计 值 是 否 偏 高 或 偏 低 。 如 只 注意 偏 低 ， 则 临界 值 在 左 
侧 ， 称 左 侧 检验 ;如 只 注意 偏 高 ， 则 临界 值 在 右 侧 ， 称 右 侧 检验 。 

(一 ) t 检验 及 其 在 分 析 化 学 中 的 应 用 

在 分 析 测 试 中 ， 测 定 值 将 不 可 避免 地 要 受到 许多 随机 因素 的 影响 ， 这 些 个别 的 因素 对 测 
定 误差 的 影响 虽然 很 小 ， 但 各 个 因素 的 影响 综合 起 来 仍 会 对 测定 结果 产生 明显 影响 。 从 概率 
论 的 观点 来 看 ， 测 定 误 差 是 很 多 数值 微小 而 又 相互 独立 或 弱 相 关 的 随机 变量 之 总 和 ， 是 一 个 
随机 变量 ， 遵 循 或 近似 地 遵循 正 态 分 布 ， 可 用 正 态 分 布 的 概率 密度 函数 来 描述 大 样本 测定 的 
误差 分 布 ， 即 
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x =x, He =ke, +e (4-34) 


AP, r 为 分 析 测 定数 据 ; zt 设 为 该 分 析 样 本 在 无 任何 量 测 误差 存在 时 的 真实 值 ， 它 一 
般 由 某 一 仪器 常数 与 该 样本 的 真实 浓度 的 乘积 (kc,) Rh; e 为 遵循 或 近似 地 遵循 零 均 等 
方差 正 态 分 布 的 量 测 误差 。 然 而 ,通常 的 化 学 分 析 测 定 ， 都 是 小 样本 试验 ， 只 进行 3 一 5 次 
测定 ， 如 此 小 样本 试验 并 不 能 求 得 正 态 分 布 的 总 体 均 值 wk 和 总 体 标准 差 。， 只 能 求 得 样本 均 
值 二 和 样本 标准 差 ;， 因 此 ， 无 法 直接 将 正 态 分 布 应 用 于 小 样本 试验 数据 。 直 接 采 用 样本 均 
值 二 和 样本 标准 差 ; 来 进行 检验 ,需要 应 用 类 似 正 态 分 布 的 t 分 布 (参见 第 十 一 章 )。 

进行 t 检验 的 程序 可 归纳 如 下 : 

(1) 根据 实际 问题 作出 原 假设 瓦 ,. 和 备 择 假设 H. 

(2) 选 定 所 用 的 统计 量 。 

QD 当 检 验 样 本 均值 石 与 总 体 均值 jy 是 否 存在 显著 性 差异 时 ， 使 用 如 下 统计 量 : 


pera Wn) (4-35) 






































AF, n 为 测定 次 数 。 
C) 当 检 验 两 个 样本 均值 之 间 是 否 存 在 显著 性 差异 时 ， 使 用 统计 量 : 


t 一 (元 | 一 元 )/L Vs? G/n; -1/n;)] (4-36) 








式 中 ， s? [GO —1)s? 十 (zs 一 1)s3 /Cl +n, — 2) 


(3) 选 定 显著 性 水 平 c ， 决 定 拒 绝 域 5。 

(4) 随机 抽取 样本 ， 计 算 样 本 平均 值 m 和 样本 方差 ?2 。 

(5) 计算 统计 量 值 ， 若 由 样本 值 计 算 的 统计 量 落 人 拒绝 域 5 内 ， 即 由 样本 值 计 算 的 统计 
量 大 于 /上 分 布 表 中 相应 的 显著 性 水 平 a 和 相应 自由 度 f(f 9n 一 1) 下 的 临界 值 上 er ， 则 拒绝 
接受 原 假设 Hos 若 由 样本 值 计算 的 统计 量 落 入 非 拒绝 域内 ， 即 由 样本 值 计算 的 统计 量 小 于 
t 分 布 表 中 相应 的 显著 性 水 平 a 和 相应 自由 度 f(f 二 一 1) 下 的 临界 值 1。,;， 则 接受 原 假 设 
Hos 若 由 样本 值 计算 的 统计 量 落 入 拒绝 域 与 非 拒 绝 域 的 边界 附近 ， 即 由 样本 值 计算 的 统计 
量 与 1 分 布 表 中 相应 的 显著 性 水 平 a 和 相应 自由 度 f(f 9n — D 下 的 临界 值 t,y 相 近似 ， 则 
原 假设 互 , 处 于 被 怀疑 状态 ， 这 时 最 好 继续 进行 试验 ， 而 后 将 新 旧 样 本 值 合 起 来 计算 统计 量 
再 进行 检验 。 

效 举 例 来 说 明 如 何 进行 上 检验 。 

某 化 工厂 从 以 往 的 生产 数据 得 知 ， 在 生产 正常 的 情况 下 ， 产 品 中 平均 含 锁 量 为 0. 45%， 
某 日 随机 抽查 了 五 批 产 品 ， 测 定 含 铅 量 分 别 为 0. 48%、0.44%、0.42%、0.47%、0.43%， 
问 在 显著 性 水 平 a 二 0.05 下 产品 中 的 平均 含 铅 量 有 无 变化 ? 

解 : CD 原 假设 Ho: y= 二 0.45; 备 择 假设 Hi: p0. 45; 

(2) 选 定 检验 统计 量 。 





















































1 一 ( 亏 一 AD)/CGAwWT ) 
(3) 选 定 显著 性 水 平 一 0.05， 本 例 为 双边 检验 ， 即 含 铅 量 有 无 变化 〈 大 了 与 小 了 都 不 
同 于 原先 的 含 销量 ) At 分 布 表 得 ，iu 6544 二 2.78， 一 10 65.4 二 2.78， 则 拒绝 域 为 11 | > 
2. 78 的 区 域 5。 
(4) 计算 样本 平均 值 却 和 样本 方差 ;?。 























T —(1/n) X x, —0.448 
—[1/ —15] X (x; — zT)? =0. 00067 
(5) 计算 统计 量 值 
t = (0. 448 — 0. 452/ Gs/ 4/5) = —0. 02/0. 0116 — — 1. 727 


(6) 检验 比较 ， 因 | 6] =1.727 迄 2.78， 故 可 接受 原 假设 ， 认 为 测定 含 铅 量 与 原平 均 含 
铅 量 无 显著 性 变化 。 

再 来 看 一 个 如 何 采用 分 布 来 进行 不 同 平均 值 检 验 的 例子 。 

某 实验 室 获得 两 批 盐酸 的 滴定 数据 ， 第 一 组 的 均值 为 x mean 717. 4mL， 标 准 差 为 ;1 二 
1. 30， 第 二 组 的 均值 为 x meang =19. 5mL， 标 准 差 为 ;, = 二 1.15， 滴 定 次 数 都 是 8 次 ， 即 j= 
ns 王 8， 通过 下 Meus. 说明 它们 的 标准 偏差 无 显著 性 不 同 ， 问 在 显著 性 水 平 a 二 0.05 的 条 件 
下 ， 这 两 批 盐酸 的 滴定 数据 是 否 具有 显著 性 不 同 ? 

解 : io: 原 假设 Ho: x mean.l 一 mean,2 $ 备 择 假设 Hi: Enean S E dnd ; 

(2) 选 定 检验 统计 量 。 


























t =| TX mean, 1 T mean, 2 | / G2 


(3) 选 定 显著 性 水 平 a 二 0.05， 本 例 为 双边 检验 ， 查 t 分 布 表 得 ，to0.05,14 — 2. 145 
2.78， 一 zo.05,14 72. 145. ”2.78， 则 拒绝 域 为 | 2.78 | 22.145. 2.78 的 区 域 5。 
OD. 计算 样本 方差 y? 。 


2 2 
NE rom ro E | Es e 
(5) 计算 统计 量 值 。 








£—| 17.4 — 19. 5 | /0. 61 —3. 42 


(6) 检验 比较 ， 因 | 7 | —3.422:2.145, BUS n] BESE R, XX ALIE ER REI dd as 2S 
的 确 具 有 显著 性 不 同 。 
(二 ) 检验 及 其 在 分 析 化 学 中 的 应 用 
对 一 个 试 样 进行 多 次 重复 测定 时 ， 由 于 测定 受到 各 种 因素 的 影响 ， 各 次 测定 值 并 不 相 
同 ， 它 们 之 间 的 差异 称 为 变 差 。 变 差 的 大 小 通常 用 样本 方差 或 样本 标准 差 来 量度 。 方 差 的 大 
小 反映 了 测定 结果 的 精密 度 ， 是 衡量 试验 条 件 稳 定性 的 重要 标志 。 为 评价 分 析 方 法 与 测定 结 
果 的 优 劣 ， 比 较 各 种 分 析 方 法 与 测定 结果 的 测定 精密 度 ， 一 般 就 需 采 用 方差 检验 的 方法 。 
1. 一 个 总 体 的 方差 检验 
Xp X 是 遵从 正 态 分 布 N M. o?) 的 随机 变量 ， 其 中 和 o? 未 知 ,x1，xs，，…，Xx 是 由 
总 体 中 随机 抽取 的 样本 值 ， 其 样本 方差 为 s?[s 二 > (m; —530?/(— DD] . WU] (n — Ds? /o? 月 
从 x ?分布 ( 见 第 十 一 章 )， 即 
(2 一 1)s2/62 =X [(z;—z)/o]? ~ y*n—1) (4-37) 


式 中 ，(n 一 1) 为 x ?分布 的 自由 度 。 
对 于 给 定 的 显著 性 水 平 a。， 在 x? 分 布 表 中 可 查 得 自由 度 /一 (x 一 1) 的 两 侧 临界 值 x3.y 
Bx sn. p 使 得 
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P (x! Z x5, p) —a/2 
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即 PG un, p SX S Xia, p) -1—a 


归结 起 来 ， 方 差 检验 的 一 般 程序 可 如 下 ， 

D 建立 原 假设 Ho: ?一 o# ， 这 里 wo 为 一 要 求 的 方差 。 

(2) 计算 统计 量 : g= Q1 — Ds? /o$. 

O 给 定 显著 性 水 平 a。， 查 表 得 到 相应 的 x? ay Mtes 并 检验 式 (4-38) ETRE: 











X Tey2， f <?’ Xia. f (4-38) 


如 果 成 立 ， 则 说 明 原 假设 成 立 ， 否 则 表明 发 生 了 小 概率 事件 ， 应 拒绝 原 假设 。 

下 面 仍 用 一 个 实例 来 加 以 具体 说 明 。 

某 钢 厂 测定 铁水 中 的 含 碳 量 ， 在 稳定 生产 情况 下 ， 可 假定 服从 正 态 分 布 ， 其 方差 按 往常 
冷 料 可 定 为 0.048?， 某 日 测定 5 炉 铁 水 ， 测 得 的 含 碳 量 分 别 为 : 4.32，4.55，4.36，4. 40， 
4. 44。 试 问 其 方差 与 0. 048? 是 和 否 存 在 显著 性 〈 显 著 性 水 平 a —0.10) 差异 。 

f. (1) 建立 原 假设 Ho: 4395 =0. 048? , 

(20 计算 样本 统计 量 : 























XU —15s'/s$ =E (zi —T)?/0? 
一 [L(4.32 一 4.414)2 十 (4.55 一 4.414)2 + (4. 36 一 4.414)2 十 
(4. 40 — 4. 414)? + (4. 44 — 4. 414)? ]/0. 048? 
— [€0. 094)? + (0. 136)? + (0. 054)? + (0. 0140? + (0. 026)? ]/0. 048? 
—]13.5 


(3) AERA EKEa=0.10, Hixy25,4,—9.49, x5 ,5,470. 711, 4 





P (0. 711 < x a < 9. 49) 一 0. 90 


由 于 13.5 不 在 区 间 [0.711, 9.49] 之 内 ， 因 而 否定 瓦 ， 认 为 方差 显著 改变 了 ， 铁 水 
中 的 碳 含量 不 稳定 。 

2. 两 个 总 体 方差 检验 

Exis £o, 0, £a JAIR Nuis oi) 的 ni DEER, yis yj co yn 为 总 体 
N Cuis 03) 的 ns 个 样本 ， 且 它们 相互 独立 ， 由 于 : 











(ni1—1)si/ol ~ x? n; — D 
(ng — Ds2/o$ ~ x? n; 一 1) 
有 (51/919 GT /a$3 ~ F mi, D 


即 si/s3 服从 第 一 自由 度 为 (m1 一 1)， 第 二 自由 度 为 (ns 一 1) 的 下 分 布 (参见 第 十 章 )， 
知 假设 Ho, ot =o} 成 立 ， 则 





2.43.8 
51/55 x F o2. 15—1) 




















即 si/sz 服从 第 一 自由 度 为 (Qu — D. 第 二 自由 度 为 (Qi; — D. 的 下 分 布 ， 且 不 带 未 知 参数 。 
因此 








Fg =s1/s3 


就 可 作为 原 假 设 互 。 的 检验 统计 量 。 由 上 式 作 为 检验 统计 量 进行 显著 性 检验 的 方法 ， 就 称 为 
下 检验 。 

F 检验 的 原理 ， 可 以 这 样 来 理解 。 因 为 样本 方差 si 和 sz 分 别 是 总 体 方 差 of Hol 的 无 
Mhib. si 和 sz 理应 分 别 在 of 和 cc; 附近 摆动 。 因 此 ， 如 果 原 假设 o= RA, Fer 二 
iss o ， 则 表明 原 假 设 五 ,不 正确 ， 应 拒绝 原 假 设 。 
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现 仍 以 一 个 实例 对 下 检验 方法 加 以 具体 介绍 。 
i E Ede 属 材 料 ， 分 别 抽 样 测定 其 杂质 的 含量 (X. fX 4-11: 
两 种 不 同 冶炼 方法 所 得 的 杂质 含量 单位 :% 
原 治 炼 方 法 新 冶炼 方法 原 冶 炼 方法 新 冶炼 方法 
26.9 22.6 26.4 23.4 
22.8 22.5 27.2 
25.7 20.6 30.2 
23.0 23.6 24.5 
22 24.3 29.5 
24.2 21.9 25.1 
26.1 23.2 














可 这 两 种 冶炼 方法 所 得 的 杂质 含量 的 方差 是 否 存 在 显著 性 差异 。 
将 原 方法 和 新 方法 的 杂质 含量 分 别 计 为 5 和 7， 假定 5 服从 正 态 分 布 N Mis oi) 7 
服从 正 态 分 布 N 4，o2 ) ， 根 据 所 提问 题 ， 提 出 如 下 原 假设 Ho: oi 二 02。 
根据 所 得 数据 计算 F 检验 统计 量 : 下 样本 一 S1/s， 。 


13 


> 1 
n; —13, x —25.68, s? =— > (x; — x)? 一 6. 178 











9 
n; —9, y —22.51, 020i 1. 652 


1 


F xaz, 8) =s? /s} =6. 178/1. 652 =3. 74 


对 于 给 定 的 显著 性 水 平 a=0.05, TE F 分布 表 中 查 得 第 一 自由 度 为 12， 第 二 自由 度 为 8 的 
临界 值 Faso 二 3. 28, 由 于 3.74 二 3.28， 因 而 拒绝 原 假设 肪 。， 认 为 这 两 种 冶炼 方法 的 杂质 
含量 的 方差 是 显著 不 同 的 。 

在 此 ， 值 得 提出 的 是 ， 在 编制 下 分 布 表 时 ， 是 将 大 方差 作 分 子 ， 小 方差 作 分 母 ， 所 以 
在 由 样本 值 计算 统计 量 下 样本 时 ， 也 要 将 样本 方差 s; 和 xs，* 中 数值 较 大 的 一 个 作 分子 ， 较 小 的 
一 个 作 分 母 。 
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第 五 章 ”分 析 信 号 处 理 方法 


分 析 信和 号 处 理 方法 主要 涉及 现代 信号 处 理 的 理论 和 方法 以 及 近年 来 发 展 的 小 波 分 析 新 方 
法 ， 均 属于 本 章 讨论 的 内 容 上 31 。 本 章 在 分 析 信号 的 预 处 理 方法 的 介绍 方面 ， 对 于 一 般 常 用 
的 经 典 方法 ， 如 分 析 信号 的 平滑 方法 、 分 析 信 和 号 的 求 导 方法 、 分 析 信和 号 的 变换 方法 、 分 析 信 
号 的 背景 扣除 方法 和 色谱 分 析 信号 的 漂移 校准 方法 都 将 给 出 必要 的 介绍 ， 但 主要 着 重点 将 放 
在 介绍 目前 已 经 或 开始 受到 化 学 计量 学 研究 重视 的 多 变量 处 理 的 新 方法 之 上 ， 即 基于 卡尔 曼 
滤波 、 小 波 变 换 的 信号 预 处 理 方法 、 分 析 信 和 号 的 背景 扣除 方法 和 色谱 分 析 信和 号 的 漂移 校准 方 
法 ， 对 于 这 些 方法 ， 在 详细 介绍 它们 的 基本 原理 的 基础 上 ， 对 它们 的 基本 思路 和 基本 算 
法 亦 将 给 出 详细 介绍 ， 并 给 出 相应 的 计算 机 程序 和 计算 时 所 需 的 数据 表格 ， 以 供 读者 方 
便 使 用 。 




































































第 一 节 ”分析 信号 的 平滑 方法 


平滑 方法 是 分 析 信 和 号 预 处 理 中 一 种 常用 的 去 噪 以 提高 信 噪 比 的 方法 ， 在 分 析 化 学 的 信和 号 
预 处 理 中 得 到 了 相当 广泛 的 应 用 。 本 节 所 介绍 的 平滑 方法 包括 最 简单 的 移动 窗口 平均 法 、 移 
动 窗口 多 项 式 最 小 二 乘 平 滑 法 、 中 位 数 稳健 平滑 法 、 粗 糙 惩 罚 平滑 法 。 


一 、 移 动 窗 口 平 均 法 


因为 对 一 组 含 噪声 的 量 测 数据 进行 均值 运算 时 可 显著 地 提高 量 测 数据 的 信 噪 比 ， 故 此 方 
法 可 用 来 对 分 析 信 和 号 进行 平滑 处 理 ， 是 平滑 处 理 中 一 个 最 简单 方法 。 

对 于 一 个 含 噪声 的 波谱 或 电化 学 谱 (其 量 测 点 为 个 )， 奉 对 其 中 第 i 个 点 及 其 前 后 各 
m 个 数据 点 进行 平均 ， 使 得 参加 平均 的 数据 点 一 共 为 N 三 2m 十 1， 则 移动 窗口 平均 法 的 计算 
公式 为 : 
































1 Th 
Li, 平滑 后 二 ux > Xj. FH G —1, =, n) 
N 


j= —m 








明显 可 知 平滑 后 的 第 ; 个 点 的 数值 是 这 (2m D 个 量 测 数据 的 平均 值 ，(2m 十 1) 也 
就 是 窗口 的 宽度 。 然 后 依次 移动 此 窗口 ， 由 上 式 求 得 第 (i 十 1) 个 点 上 的 平滑 后 数据 ， 直 至 
将 整个 波谱 量 测 点 数据 计算 完 ， 故 此 法 有 移动 窗口 平均 法 之 称 ， 有 时 也 称 为 车 厢 法 (car- 
box method), KI 5-1 对 此 给 出 了 一 个 形象 示意 图 [1]。 

从 图 5-1 中 还 可 以 看 出 ， 采 用 这 种 移动 窗口 法 对 波谱 量 测 值 前 m 个 点 以 及 后 m 个 点 不 
能 进行 平滑 运算 ， 故 所 得 的 平滑 后 波谱 会 有 丢失 这 些 边界 点 信息 的 损失 。 另 外 ， 窗 口 宽度 
(2m 十 1) 的 选择 也 是 一 个 值得 讨论 的 重要 因素 ， 窗 口 太 小 时 (如 2m--1-3) 平滑 去 品 效 果 
将 不 佳 ， 而 窗口 太 大 时 ， 由 于 此 法 是 进行 简单 求 均 值 运算 ， 平 滑 后 的 波谱 有 波形 失真 之 整 。 
在 选用 此 法 进行 平滑 处 理 时 ， 这 些 都 是 值得 考虑 的 因素 。 


二 、 移 动 窗口 多 项 式 最 小 二 乘 平滑 法 
在 此 介绍 的 移动 窗口 多 项 式 最 小 二 乘 平 滑 法 〈 也 称 拟 合法 ) 是 由 Savitzky 与 Golay[5 志 
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移动 窗口 平均 法 示意 图 





同 提出 的 ， 此 法 不 是 采用 简单 平均 运算 ， 而 是 在 移动 窗口 运算 中 引入 多 项 式 最 小 二 乘 拟 合 ， 


故 该 法 可 做 到 既 能 去 噪 提高 分 析 信 号 的 信 噪 比 ， 又 可 较 好 地 保持 分 析 信 号 〈 波 谱 ) 中 的 有 用 











言 息 。 此 法 虽 早 在 20 世纪 60 年 代 提 出 ， 至 今 仍 在 分 析 化 学 信和 号 预 处 理 中 频繁 使 用 。 
移动 窗口 多 项 式 最 小 二 乘 拟 合法 计算 的 基本 思路 与 前 述 移动 窗口 平均 法 是 类 似 的 ， 唯 一 
不 同 的 地 方 只 是 此 法 没有 使 用 简单 的 平均 而 是 通过 多 项 式 来 对 移动 窗口 之 内 的 波谱 点 进行 多 


SN s 7] 
(一 1) 



































\ 二 乘 拟 合 ， 将 窗口 内 N= 二 2m 十 1 个 等 距离 点 On 一 般 可 取 1 一 12) 的 数据 ， 拟 合 为 
阶 多 项 式 : 


ri-—agcajjcasj?-cca,j* 








(j— —m.—m-rl.:.m-—1.m; t= lpn) (5-1) 








通过 对 式 (5-1) 进行 最 小 二 乘 拟 合 就 可 得 到 一 个 求 得 ro 〈 即 窗口 内 中 心 点 ) 的 计算 公 
式 ， 以 后 就 可 以 看 到 ， 所 得 公式 与 移动 窗口 平均 法 的 唯一 不 同 点 就 在 于 多 项 式 拟 合法 实质 上 





是 一 种 力 





1 权 平 均 法 ， 它 更 强调 中 心 点 的 中 心 作 用 而 已 。 图 5-2 示 出 了 移动 窗口 多 项 式 最 小 二 


乘 平 滑 法 基本 原理 。 








下 面 以 一 个 窗口 为 5 的 二 次 多 项 式 为 例 来 加 以 具体 说 明 。 根 据 式 (5-1)， 有 : 








p 五 点 拟 合 


Bern 


























E 移动 窗口 多 项 式 最 小 二 乘 平滑 法 示意 图 
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zi? =a, +a, (一 2) 十 cy (一 2)2 
xi! =a ta; (一 1) 十 cy (一 1)2 
zi =a, +a; (0)+a; (0)? 
zit! =a, +a, (1) +a: OD? 


xit? =a +a; (2) +a; (2)? 















































Jh Hl : 
M Rond C i zu a 
ux EE 1 —1 1| [e 
Z0 一 00 =|1 0 0| la 
xi'!—agyca-as 1 1 1 à» 
Z 2 一 00 十 2a1 十 4a， i 2 4 
S X =Ma 
其 中 
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zr 
X-—|zrp 
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mj 
1 一 2 4] 
1 —1 I em 
Mel 0 0|,a=|ai 
1 1 1 as 
1 2 4| 
解 此 方程 可 得 
a —OM'MD7M*X 
Z => ET "s 
Kika V AX X—Ma-M(OM!MD) 7M X, Bin [fs 
z= laie 49r —3xb—5xi axi) 
2 35 
A 1 : : ; SJ an 
zUy = g Oei 十 137 +12r0 Hbri iri) 





` 1 u u n " 
ai= 7a U£ 1227] Vai E 12217 — 3217) 





zit! (—94 7 Für t122 lisi +925?) 








十 ?> —29 — i i 
ri -——(3x/02—54:50—3xzb54- 9x1 43x17) 


(5-2a) 
(5-2b) 
(5-26) 
(5-2d) 
(5-2e) 


(5-3) 


(5-4) 


(5-5) 


(5-62) 


(5-6b) 


(5-60) 


(5-6d) 


(5-6e) 
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在 上 述 方程 中 ，z (二 一 2, 一 1,0,1,2;i 二 1,…,n) 是 估计 值 c} 计算 而 得 ， 其 上 标 i 为 
pape 点 的 位 置 〈 紫 外 光谱 为 波长 ， 红 外 光谱 为 波 数 ， 电 化 学 谱 则 为 电位 或 其 他 变量 离散 
点 )。 而 下 标 j 则 表示 在 窗口 中 相对 于 中 心 点 0 的 位 置 点 ， 故 有 正 负 之 别 ， 负 数 表示 在 中 心 
por d 正 数 表示 在 中 心 点 的 右边 。 

如 前 所 述 ， 移 动 窗口 多 项 式 最 小 二 乘 平 滑 法 与 移动 窗口 平均 法 的 差别 仅 在 于 前 者 是 一 种 
强调 中 心 点 作用 的 加 权 平 均 ， 故 在 上 述 式 〈5-6a) 一式 (5-6c) 中 ,移动 窗口 多 项 式 最 小 二 
乘 拟 合法 真正 用 到 的 只 是 中 心 点 ， 即 zy 的 表达 式 



































1 ; "e 
P= Seco Hiri Hri Ha Dt) (5-7) 
PES 4 " 1 之 . . 4 
除去 移动 窗 口 位 置 下 标 ， 并 将 其 整理 成 如 Cg. 平滑 后 一 WT 5 Tij, 平滑 前 相 类 似 式 子 后 得 : 
N j 前 
j= —m 
; 1 m " 
Z0 一 下 25 wx (5-8) 





3X (5-80 可 称 为 移动 窗口 多 项 式 最 小 二 乘 平滑 法 的 通 式 ， 式 中 ，A 可 称 为 归 一 化 常数 ; 
(2m 十 1) 为 窗口 宽度 ; w; 为 相应 的 权重 数 ， 故 在 窗口 宽度 确定 以 后 ， 就 有 其 相应 的 w;. 
值得 指出 的 是 多 项 式 次 数 的 选择 是 可 变 的 ， 前 述 例子 只 是 给 出 了 二 次 多 项 式 平 滑 的 例子 。 实 
际 亦 可 用 三 次 、 四 次 甚至 更 高 次 的 多 项 式 来 拟 合 。 当 然 相 应 的 归 一 化 常数 和 权重 就 会 发 生变 
化 。 为 此 Savitzky 和 Golay 就 计算 出 了 一 系列 不 同 权重 与 归 一 化 常数 ， 以 表 (参见 表 5-1 和 
KR 5-2) 的 形式 给 出 使 读者 可 直接 使 用 它们 来 进行 平滑 计算 。 显 然 , wj 二 一 m，…，m) 的 
个 数 也 就 是 窗口 的 宽度 。 为 方便 读者 直接 进行 平滑 ， 也 将 这 些 表 列 于 本 节 之 中 。 

值得 提出 的 是 ，Savitzky 和 Golay 给 出 的 表 中 存在 一 些 错误 ， 后 由 J. Steinier 等 对 其 进 
行 了 修正 [5 ， 并 由 Gorry 给 出 了 更 一 般 的 形式 和 计算 边界 点 公式 ”]， 本 书 给 出 的 表 是 经 过 
修正 的 。 


EXER 移动 窗口 多 项 式 拟 合 平滑 权重 系数 表 (多 项 式 次 数 : 2 或 3) 




























































































) 25 23 21 19 17 15 13 11 9 7 5 
一 12 一 253 
=L =g 一 42 
一 10 —33 一 21 =I 
一 9 62 =2 —16. | —136 
-8 147 15 9 二 —21 
= 222 30 84 24 = =78 
—6 287 43 149 89 T7 ep 二 让 
—5 343 54 204 144 18 42 0 一 36 
一 4 387 63 249 189 27 87 9 g 一 2 
= 422 70 284 224 34 122 16 44 14 =A 
一 2 447 75 309 249 39 147 21 69 39 3 —3 
=] 462 78 324 264 42 62 24 8 54 6 12 
0 67 79 329 269 43 167 25 89 59 7 17 
1 462 78 324 26 42 62 24 8 54 6 12 
2 447 75 309 249 39 147 21 69 39 3 = 
3 422 70 284 224 34 22 16 4 14 = 

















| 194 分 析 化 学 手册 





10 化 学 计量 学 

































































ue 25 23 21 19 17 15 13 11 9 7 5 
4 387 63 249 189 27 87 9 9 一 21 
5 343 54 204 144 18 42 0 一 36 
6 287 43 149 89 7 一 13 —11 
7 222 30 84 24 一 6 =78 
8 147 15 9 —51 —121 
9 62 一 2 一 76 | —136 
10 一 33 —21 | 一 121 
11 一 138 一 42 
12 一 253 
归 一 化 常数 5175 805 3059 2261 323 1105 143 429 231 21 35 
移动 窗口 多 项 式 拟 合 平滑 权重 系数 表 (多 项 式 次 数 : 4 或 5) 
Pur 25 23 21 19 17 15 13 11 9 7 
—12 1265 
—11 — 345 95 
—10 一 1122 一 38 11628 
一 09 一 1255 一 95 | 一 6460 340 
一 08 一 915 一 95 | 一 13005 一 255 95 
—07 — 255 —55 | —11220 — 420 —195 2145 
—06 590 10 | 一 3940 一 290 一 260 | 一 2860 110 
一 05 1503 87 6378 18 17 2937 198 18 
一 04 2385 165 17655 405 135 | 一 165 | 一 135 一 45 15 
一 03 3155 235 28190 790 415 3755 110 一 10 一 55 5 
—02 3750 290 36660 1110 660 7500 390 60 30 一 30 
—01 4125 325 42120 1320 825 | 10125 600 120 135 75 
00 4253 — 337 44003 1393 883| 11063 677 143 179 131 
01 4125 325 42120 1820 825 | 10125 600 120 135 75 
02 3750 290 36660 1110 660 7500 390 60 30 一 30 
03 3155 235 28190 790 15 3755 110 一 10 一 55 5 
04 2385 165 17655 405 135 | 一 165 | 一 135 一 45 15 
05 1503 87 6378 18 117 2937 198 18 
06 590 10 | 一 3940 一 290 一 260 | 一 2860 110 
07 一 255 一 55 | 一 11220 一 420 一 195 2145 
08 一 915 一 95 | 一 13005 一 255 195 
09 一 1255 一 95 | 一 6460 340 
10 —1122 — 38 11628 
11 — 345 95 
12 1265 
归 一 化 常数 30015 6555 | 260015 7429 4199 | 46189 2431 429 429 231 














三 、 移 动 窗口 中 位 数 稳健 平滑 法 


由 于 平均 数 的 计算 和 最 小 二 乘 估计 是 非 稳健 的 (non-robust) 























《参见 第 六 章 广义 灰色 分 
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析 体 系 中 的 稳健 估计 )， 所 以 对 于 一 些 存 在 有 奇异 点 的 波谱 ， 前 述 两 种 平滑 法 丝 难 于 给 出 满 
意 的 结果 。 如 果 用 稳健 的 中 位 数 来 代替 平均 数 ， 就 构成 了 移动 窗口 稳健 中 位 数 平滑 法 ， 此 法 
的 基本 计算 过 程 与 窗口 移动 平均 法 完全 一 样 。 只 需 将 其 计算 公式 作 一 改动 即 可 。 


Ti, 平滑 后 二 ImedianCZii) — j — C— m, c. m) 


此 法 虽然 简单 ， 但 仍 不 失 为 一 个 可 用 的 稳健 平滑 方法 。 














在 前 述 几 小 节 讨 论 的 平滑 方法 中 ， 移 动 窗口 多 项 式 最 小 二 乘 平 滑 法 在 化 学 波谱 数据 预 处 
理 中 得 到 了 相当 广泛 的 应 用 ， 确 为 一 个 较 好 的 平滑 方法 。 然 而 ， 该 法 也 存在 一 些 弱 点 : 由 该 
法 是 一 种 基于 最 小 二 乘 拟 合 的 方法 ， 很 不 稳健 ， 其 月 省 点 为 1/n (参见 第 六 童 广义 灰色 分 析 
体系 中 的 稳健 估计 )， 故 对 于 存在 异常 点 的 数据 ， 所 得 结果 将 不 尽 如 人 意 。 包 该 法 本 质 上 是 
一 种 参数 估计 法 ， 其 结果 与 适当 参数 选取 密切 相关 ， 其 中 窗口 的 密度 、 多 项 式 的 次 数 的 选取 
就 十 分 重要 ， 不 同 的 参数 得 到 的 结果 就 不 尽 相 同 。 轧 由 于 该 法 实质 上 采用 中 心 点 来 进行 加 权 
估计 ， 所 以 有 边界 点 信息 丢失 之 广 。 窗 口 越 大 ， 丢 失 的 点 就 越 多 。 虽 提出 了 一 个 边界 点 计算 
方法 ， 但 其 应 用 远 不 及 原始 Savitzky 和 Golay 法 广泛 。 所 以 ， 发 展 更 有 效 的 方法 仍 有 必要 

本 节 所 讨论 的 粗糙 惩罚 平滑 法 是 一 种 非 参数 估计 的 方法 ， 故 可 克服 前 述 Savitzky 法 的 
缺点 。 该 法 是 由 英国 统计 学 家 Silverman 提出 ， 其 基本 思路 是 在 最 小 二 乘 佑 计 的 基础 上 再 加 
上 一 个 粗糙 惩罚 项 ， 其 目标 函数 为 : 















































SLf 0) = 3G, — fi»? taf” C Cw) ]? dw (5-9) 





XU. f 是 一 个 任意 二 阶 可 微 函 数 ; c; GSL en HERK (包括 电化 学 谱 ) 中 的 
量 测 点 数据 ; fi mE f Ovi. f GwO TE w; (i 二 1,…,n) 上 的 函数 值 ;/”(w) 为 其 二 阶 导 数 ; a 
为 惩罚 参数 ， 其 大 小 决定 了 惩罚 项 在 目标 函数 中 的 作用 。 其 外 ， 此 目标 函数 用 了 了 的 二 阶 
导数 积分 值 作为 其 惩罚 项 ， 实 因 二 阶 导数 之 积分 值 是 任 一 曲线 粗糙 性 的 最 好 度量 ， 其 与 样 条 
的 张力 能 (strain energy) 是 成 正比 的 。 

从 上 述 目标 函数 可 以 看 出 ， 粗 糙 惩 罚 平 滑 法 一 方面 注意 到 了 拟 合 的 作用 〈 此 点 优 于 简单 
平均 ) ， 另 一 方面 ， 又 注意 到 了 测量 数据 的 粗糙 性 ， 越 是 粗糙 和 不 光滑 的 测量 数据 中 噪声 的 
成 分 就 越 大 ， 受 到 的 惩罚 亦 越 大 。 通 过 交叉 校 验 (cross-validation) 来 决定 w， 则 可 使 该 目 
标 函 数 在 对 拟 合 噪声 惩罚 达到 最 好 的 平衡 ， 以 最 大 限度 保证 分 析 信和 号 既 不 失真 又 能 除 噪 ， 取 
得 最 好 的 平滑 效果 。 在 此 ， 必 须 指 出 的 另 一 点 是 ， 由 于 f 为 任 一 二 阶 可 微 函 数 ， 所 以 此 目 
标 函 数 为 求 一 泛 函 最 优 问题 。 

正 由 于 这 问题 为 一 泛 函 寻 优 问题 ， 一 般 很 难 用 经 典 方法 求解 ， 故 此 法 的 求解 方式 是 首先 
转换 成 矩阵 形式 ， 继 续 将 其 变形 ， 从 而 得 到 它 的 最 优 解 。 

首先 ， 可 以 证 明 ， 









































[^ C" Gu dw "Kf (5-10) 


RP, K 为 一 (Xn) 阶 和 矩阵， 了 二 [有 1,… ,fnj'*， 即 所 求 函 数 在 个 样 点 上 的 函数 值 。 

K 矩阵 可 由 下 列 方法 来 构成 。 

首先 令 有 ;二 wj 一 wi(i 二 1,…,n 一 1)， 继 先 构 成 两 个 矩阵 ， 即 矩 阵 O,xo-> 和 和 矩阵 
R46-2xa-2，， 其 中 矩阵 8 的 元 素 可 由 式 (5-11) EX: 
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gj-1;71/hj-1$ qj — —l/h;-1—l/hjs giai; ml/h (5-11) 
JJ 一 2，…，7 一 1 
而 对 于 一 般 的 元 素 qi;;， 当 | i 一 7 | S2 if, qij-—0 G-—l,. a Ns j—l. c. Hl), 
所 以 有 
1/hı 0 0 0 ] 
1/h; —1/ha 1/hs 0 0 
1/h2 1/h2—1/h3 1/h3 : 
0 1/hs 1/ha —1l/h4 
Q= 0 0 l1/h, 
0 
: : : l/h,—-2 
0 0 0 1/hn—2  l/h,—2—1l/hsa-4 
| 0 0 0 0 1/h,-1 [nxin 
ERER 则 为 一 个 (2 一 2) X (2 一 2) 对 称 方 阵 ， 其 主要 非 零 元 素 
rg Chi-ich;) /3 (—2, e, n—10) (5-12) 
Tiiti Srii =hi/6 (2—2, **, n—1) (5-13) 
而 当 | i 一 7 | 二 2 时 ， r; =0, 即 
(hith) /3 h./6 0 0 0 
h./6 ha tha) /3 h,/6 0 0 
0 h,/6 (h,--h,) /3 0 0 
0 0 h,/6 0 
R- 0 0 0 : 
0 
0 0 
: h, ./6 0 
(hs hi) /3 h,_z2/6 
0 0 0 Ut h, 5/6 Ch, sb Aur V 3e 
如 果 所 需 平 滑 的 波谱 (包括 电化 学 谱 ) 是 等 距 (等 时 ) RE, WU ERARA O 和 R 就 
可 简化 为 
2/3 1/6 0 0 0 
1/6 2/3 1/6 0 0 
0 1/6 2/3 0 0 
0 0 1/6 0 : 
etti! 
: : 0 : : 
: : 0 0 
: : : 1/6 0 
: : : 2/3 1/6 
0 0 0 1/6 2/3|«qa-npbxa-n» 
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如 果 fw) 可 由 一 个 自然 立方 样 条 (natural cubic spline) KAR. m HAERE wi 
«-wuw, E> FAR, Bp 


43 =f (w;), y;— f" Gw,) Ci=l, 2, s, n) 


而 且 ， 该 函数 在 边界 点 ， 即 w Mw, 上 的 二 阶 和 三 阶 导数 值 缘 为 零 ， 则 下 面 的 引 理 成 立 。 
引 理 : 矢量 f Cw) 和 y 定 义 了 一 个 自然 立方 样 条 函数 f(w) ， 当 且 仅 当下 述 条 件 


Q'f—Ry (5-14) 
成 立 。 如 式 (5-14) 成 立 ， 则 惩罚 项 可 满足 式 (5-15) 











i [f' Co) dw — Y! Ry = f' Kf (5-15) 


此 引 理 的 证 明 可 参阅 文献 L6] 。 
利用 此 引 理 ,可 容易 地 求 出 矩阵 K 的 表达 式 。 因 为 


y-R !Q'f (5-16) 
Yi 一 OCR 一 FOR (5-17) 

KA R 为 一 对 称 方 阵 。 对 照 前 述 式 (5-16) 及 式 (5-17) 可 得 
K=QR 1Q: (5-18) 


由 于 求 出 了 K 和 矩阵 的 表达 式 , 可 将 粗 燃 惩 罚 平滑 法 的 目标 函数 式 用 矩阵 形式 表达 如 下 : 








SLf (w= 21; — f Haf” C” Cw) ]? dw 


=(x— f)(x —f)+af'Kf 
x'x —2f'x + f'A +eK)f (5-19) 


注意 矩阵 (I 十 aK) 为 一 严格 正定 矩阵 ,这 说 明 式 (5-19) 具 有 唯一 的 极 小 值 ,而 且 使 式 (5- 
19) 成 立 的 极 小 值 的 解 为 

















f—-caeK) x (5-20) 
这 是 因为 ， 目 标 函 数 SLf(w)j] 可 表示 为 
Lf — G-FaK) lx]'(ITHaR)[Lf— (THaK) 'x]+S (5-21) 


式 中 ,5 为 一 与 f 无 关 的 常数 项 。 从 式 (5-21) 可 以 清楚 看 出 ， 只 有 当 f 二 (I 二 aK) !x 
时 SLf(w)j] 将 达到 极 小 。 
x— [rex] pA. K IRK t0 求 出 ， 只 要 给 定 了 a， 运 用 Matlab 标 
准 程序 是 很 容易 求 出 了 来 的 。 
原则 上 说 o 可 由 不 同方 法 确定 ， 本 书 介绍 的 是 交叉 校 验 法 。 可 以 证 明 05] ， 如 果 是 采用 
一 次 剔除 一 个 样本 点 的 算法 ， 其 交叉 校 验 的 总 得 分 可 由 下 式 给 出 
cv D neci li (5-22) 


l—Aü(a) 




















XP. ACGO-—G-TaK) 7. WA; (a) Gl. =, n) 是 该 矩阵 的 对 角 元 素 ， 广 为 所 
估计 的 函数 值 。 有 关 如 何 构成 此 交叉 校 验 法 的 细节 因 涉 及 过 多 的 数学 推导 ， 有 兴趣 的 读者 可 
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参阅 文献 [6]， 在 此 不 作 袭 述 。 
图 5-3 给 出 了 一 个 用 粗糙 惩罚 平滑 法 处 理 的 一 个 实例 。 从 图 中 可 以 看 出 ， 由 交叉 校 验 法 
给 出 的 a 的 确 可 以 达到 既 不 失真 又 可 除 噪 的 最 佳 效 果 。 
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(c) (d) 
CHE 一 个 用 粗糙 惩罚 平滑 法 处 理 的 实例 
(a) 交叉 校 验 法 的 得 分 曲线 ,a 二 90 时 具有 最 小 值 ，(b) a 二 90 时 的 粗糙 惩罚 平滑 结果 ; 
(c) a—30 时 的 粗粮 惩罚 平滑 结果 ;(d) a 二 300 时 的 粗糙 惩罚 平滑 结果 





























BP 分析 信号 的 求 导 方法 
在 波谱 分 析 中 ， 导 数 波谱 为 一 重要 的 方法 ， 如 何 直接 从 所 得 的 离散 波谱 中 获得 导数 波谱 
直 是 分 析 化 学 中 一 个 值得 研究 的 问题 。 本 节 将 对 三 种 常用 的 求 导 方法 进行 介绍 。 
一 、 直 接 差分 法 


直接 差分 法 是 一 种 最 简单 的 离散 波谱 求 导 方法 ， 对 于 一 个 离散 波谱 e; (i 二 1,…,n)， 其 
采样 波长 (wo 或 时 间 点 GG —1.220 已 知 ， 则 计算 公式 为 



































y; — Ga —x;J/Go;4i— w;) (5-23) 
如 果 采 样 波长 或 时 间 为 等 距 的 ， 则 式 (5-230 可 改写 为 
yi—XH = G —1,.7:.n—1) (5-24) 


在 Matlab 中 ， 有 一 个 deriv 国 数 ， 就 是 用 式 (5-240 来 进行 计算 的 。 

直接 差分 法 简单 ， 但 有 两 个 缺点 ， 一 是 所 求 导 数 谱 比 原始 波谱 少 了 一 个 采样 点 ， 而 使 其 
发 生 了 半 个 点 的 位 移 ， 这 对 于 使 用 原始 波谱 极 值 点 数据 带 来 误差 :二 是 这 种 方法 对 于 分 辩 率 
高 的 波谱 或 是 采样 时 间 点 很 密 的 波谱 所 求 导数 与 实际 相差 不 大 ， 但 对 于 一 些 分 辩 率 低 ， 即 采 
样 点 稀 的 波谱 ， 此 法 所 求 的 变化 率 〈 导 数 ) 就 存在 较 大 误差 了 ， 所 以 在 使 用 Matlab 的 deriv 
函数 时 一 定 要 对 这 两 点 加 以 注意 。 图 5-4 zn Hi f deriv 函数 的 波谱 求 导 的 一 个 实例 。 如 果 波 
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谱 的 分 辩 率 不 够 高 时 ， 所 求 出 来 的 导数 误差 就 很 大 了 [参见 图 5-4 (d) ] 。 
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(c) (d) 


波谱 求 导 的 实例 说 明 
(a) 一 个 函数 ; (b) 连续 函数 求 导 的 结果 ; (c) Matlab 中 deriv 函数 求 导 的 实例 ; (d) 求 导 结果 











二 、 多 项 式 最 小 二 乘 拟 合 求 导 法 


在 前 一 节 有 关 分 析 信 和 号 的 平 请 方法 中 ， 介 绍 了 Savitzky 和 Golay 的 窗口 移动 多 项 式 最 小 
二 乘 平 滑 法 ， 实际 上 该 法 不 但 可 用 于 平滑 ， 亦 可 用 于 求 导 ， 实 因 其 为 一 多 项 式 拟 合 ， 对 此 多 
项 式 求 导 ， 就 可 直接 得 到 求 导 所 需 的 窗口 中 心 点 的 加 权 平 均 表 达 式 。 此 法 求 导 所 得 的 导数 波 
谱 ， 能 克服 前 述 简 单 差 分 法 的 弱点 ， 导 数 谱 不 发 生 位 移 ， 可 精确 求 得 各 采样 点 导数 。 
前 述 求 窗口 (N=2m +1) 中 的 一 个 中 心 点 xh 的 表达 式 ， 即 











xiti —aocaij Haj? +e tarj (i=1l, Nn) G =m, 0, ,m) (5-25) 
一 阶 导数 : d(zi*/)/d()—ai-d2asj T kaaj* 1 (5-26) 
X j= 时 ， 有 dlzi t )/dG) j= =a] (5-27) 
二 阶 导 数 : d? (xi*15/d(j)—2a5 -6a5j* d- FG — D ka 4*7! (5-28) 





2 j=0 Bb. Æ d? Gi /dG2;-2o 2a, 
如 此 等 等 ， 可 一 直 求 得 该 多 项 式 的 (& 一 1) 阶 导 数 。 移 动 窗口 法 实际 上 是 只 使 用 中 心 点 的 
信息 ， 也 就 是 当 j= 时 的 信息 ， 所 以 有 
d* (GZ )/dG )j=0 5k! a; (5-29) 
由 此 可 知 , 如 果 求 得 了 a;G—1. BOXE RIoR:R 18 阶 的 权重 表达 式 。 例 如 窗口 宽度 NN = 
2m +1=9, LI 4 阶 多 项 拟 合 得 到 的 3 阶 的 权重 表达 式 如 下 : 
ag =(—14r 7r 13r Tr hu 13r Tut Hari) 
(5-30) 
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在 这 里 将 这 样 一 些 权 重 系 数 以 表 的 形式 ( 表 5-3 一 表 5-8) 给 出 ,以 供 读 者 选择 使 用 。 
移动 窗口 多 项 式 拟 合 求 一 阶 导 数 权重 系数 表 (多 项 式 次 数 : 3 或 4) 
da ) 25 23 21 19 17 15 13 11 9 7 S 
—12 30866 
—]11 8602 3938 
—10 — 8525 815 84075 
9 20982 518 10032 6936 
8 29236 3140 43284 68 748 
7 33754 4130 78176 4648 98 2922 
6 35003 4567 96947 7481 643 4121 1133 
5 33450 4530 101900 8700 930 4150 — 660 300 
4 29562 4098 95338 8574 1002 8334 1578 294 86 
3 23806 3350 79564 73172 902 7842 1796 532 42 22 
2 16649 2365 56881 5363 673 3843 1489 503 93 67 1 
-—1 8558 1222 29592 2816 358 7506 832 296 126 58 8 
0 0 0 0 0 0 0 0 0 0 0 0 
1 8558 1222 29592 2816 358 7506 832 296 126 58 8 
2 16649 2365 56881 5363 673 3843 1489 503 93 67 —1 
3 23806 3350 79564 7372 902 7842 1796 532 142 —22 
4 29562 4098 95338 8574 1002 8334 1578 294 — 86 
5 33450 4530 101900 8700 930 4150 660 | 一 300 
6 35003 4567 96947 7481 643 4121 | —1133 
7 33754 4130 78176 4648 98 — 12922 
8 29236 3140 43284 — 68 一 748 
9 20982 518 一 10032 | 一 的 36 
10 8525 — 815 — 84075 
11 — 8602 | —3938 
12 — 30866 
归 一 化 常数 1776060 | 197340 3634092 | 255816 23256 334152 24024 5148 1188 252 12 
移动 窗口 多 项 式 拟 合 求 一 阶 导数 权重 系数 表 (多 项 式 次 数 : 5 或 6) 
"ur ) 25 23 21 19 17 15 13 11 9 7 5 
—12 — 8322182 
—]11 6024183 |—400653 
—]10 9604353 359157 | — 15033066 
一 9 6671883 489687 16649358 | —255102 
一 8 544668 265164 19052988 349928 | — 14404 
Si — 6301491 | — 106911 6402438 322378 24661| 一 78351 
一 6 一 12139321 | —478349| —10949942 9473 16679 169819 | —9647 
=p — 15896511 | —752859|— 26040033 | —348823| 一 8671 65229 27093 | —573 
—4 — 17062146 | —878634| —24807914 604484 32306 130506 — 12 2166 — 254 
=5 —15593141 | — 840937 | — 35613829 686099 43973 266401 33511 1249 1381 =i 
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la 25 23 21 19 17 15 13 11 9 7 
=Z 一 11820675 | — 654687 | — 28754154 583549 | — 40483 279975 45741 3774 2269 9 
=ï — 6356625 | — 357045 | — 15977364 332684 23945 175125 31380 3084 2879 45 
0 0 0 0 0 0 0 0 0 0 0 
1 6356625 357045 15977364 332684 23945 175125 31380 3084 2879 45 
2 11820675 654687 28754154 583549| 40483| 279975 45741 3774 2269 —9 
3 15593141 840937 35613829 686099 43973 266401 33511 1249 | 一 1381 ii 
4 17062146 878634 34807914 604484| 32306 130506 12 | 一 2166 254 
5 15896511 752859 26040033| 348823 8671| 一 65229 |—27093 573 
6 12139321 478349 10949942 一 9473| 一 16679| 一 169819 9647 
7 6301491 106911| 一 6402438| 一 322378 | 一 24661 78351 
8 544668 265164 19052988 | — 349928 14404 
9 —6671883 | — 489687 | —16649358| 255102 
10 — 9604353 |— 359157 15033066 
11 — 6024183 400653 
12 8322182 
归 一 化 常数 | 429214500 | 18747300 | 637408200 | 9806280 | 503880 | 2519400 | 291720 | 17160 8580 60 
移动 窗口 多 项 式 拟 合 求 二 阶 导数 权重 系数 表 (多 项 式 次 数 ，2 或 3) 
人 2S 23 21 19 17 15 13 11 9 y S 
-—L 92 
=f] 69 77 
= 48 56 190 
=9 29 37 133 51 
—8 12 20 82 34 40 
e x 5 37 19 25 91 
= —16 一 8 — 6 12 52 22 
5 27 19 35 5 1 19 11 15 
4 36 28 62 14 8 8 2 6 28 
3 43 35 83 21 15 29 5 il 7 5 
2 48 40 98 26 20 44 10 6 8 0 2 
1 51 43 107 29 23 53 13 9 17 3 1 
0 52 44 110 30 24 56 14 10 20 4 2 
1 Sl 43 107 29 23 53 13 9 17 3 J 
2 48 40 98 26 20 44 10 6 8 0 2 
3 43 35 83 21 15 29 5 1 7 5 
4 36 28 62 14 8 8 2 6 28 
5 27 19 35 5 1 19 11 15 
6 —116 —8 — 6 12 52 22 
7 =3 5 37 19 25 91 
8 12 20 82 34 40 
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Tur 25 23 21 19 17 15 13 11 9 7 5 
9 29 37 133 51 
10 48 56 190 
11 69 77 
12 92 
归 一 化 常数 | 26910 17710 33649 6783 3876 6188 1001 429 462 42 7 
移动 窗口 多 项 式 拟 合 求 二 阶 导数 权重 系数 表 (多 项 式 次 数 ， 4 或 5) 
Togo 25 23 21 19 17 15 13 11 9 7 5 
—12 — 143198 
—11 10373 | —115577 
一 10 99385 20615| 一 12597 
一 9 137803 93993 3876 | 一 32028 
一 8 138262 | 119510 11934 15028| 一 2132 
一 ?7 112067 | 110545 13804 35148| 1443 | — 31031 
一 6 69193 78903 11451 36357| 2691 29601 | —2211 
—5 18285 34815 6578 25610| 2405 44495 2970 | 一 90 
4 33342 13062 626 8792| 1256 31856 3504 74 | —126 
3 79703 57645 5226 9282 207 6579 1614 146 371 | —13 
一 2 一 116143 93425 10061 24867| 一 1557 19751 | 一 971 1 15 67 
1 139337 | 一 116467 13224 35288| 一 2489 38859 3016 136 211 19 
0 149290 | — 124410 14322 38940| —2820 45780 3780 90 370 70 
1 139337 | — 116467 13224 35288| —2489 38859 3016 136 211 19 
2 — 116142 93425 10061 24867| —1557 19751 | —971 1 15 67 
3 一 79703 | 一 57645 5226 9282 207 6579 1614 146 371 | 一 13 
4 一 33342 | 一 13062 626 8792| 1256 31856 3504 74 | —126 
5 18285 34815 6578 25610| 2405 44495 2970 | 一 90 
6 69193 78903 11451 36357| 2691 29601 | —2211 
7 112067 | 110545 13804 35148| 1443 | —31031 
8 138262 | 119510 11934 15028| —2132 
9 137803 93993 3876 |—32028 
10 99385 20615| — 12597 
11 10373 | —115577 
12 — 134198 
归 一 化 常数 | 17168580 |11248380| 980628 |1961256| 100776 | 1108536 | 58344 | 1716 1716 132 
移动 窗口 多 项 式 拟 合 求 三 阶 导数 权重 系数 表 (多 项 式 次 数 ，3 或 4) 














口 
HRES: 25 23 21 19 17 15 13 11 9 7 5 
(N=2m+1) 

一 12 一 506 

一 所 一 253 =H 
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ipae. 25 23 21 19 {7 15 13 11 9 T 5 
=] 55 35 285 
一 9 93 一 3 —]114 — 204 
二 二 196 20 12 一 68 — 28 
eu 259 35 98 28 m =g] 
—16 287 43 149 89 7 3 =f 
= 285 45 170 120 15 39 0 —30 
wu 258 42 166 126 18 58 6 6 —]4 
e 211 35 142 112 17 61 8 22 7 = 
= 145 25 103 83 13 49 7 23 13 =i 
=] 77 13 54 44 7 27 4 14 9 2 
0 0 0 0 0 0 0 0 0 0 0 0 
1 77 13 54 44 7 27 4 14 9 2 
2 — 149 —25 iS 83 19 49 7 23 13 1 
2 bl 35 142 112 17 61 8 22 7 
4 — 250 42 166 126 18 58 6 6 14 
5 —285 45 170 120 15 35 0 30 
6 — 287 = 49 — 149 — 89 =F 13 1l 
7 — 259 35 98 28 7 91 
8 — 196 =g) =] 68 28 
9 一 93 3 114 204 
10 55 35 285 
11 253 7T 
12 506 
归 一 化 常数 | 296010 32890 86526 42636 3876 7956 572 858 198 6 2 
移动 窗口 多 项 式 拟 合 求 三 阶 导数 权重 系数 表 (多 项 式 次 数 ，5 或 6) 
25 23 21 19 17 15 13 11 9 F 5 
= 284372 
=] — 144463 49115 
=o — 293128 | — 32224 748068 
—9 — 266403 | — 55233  —625974 15810 
=f — 146408 43928 908004 16796 1144 
= 5131 16583 598094 20342 1547 8281 
二 看 144616 13632 62644 9818 1508 14404 1430 
—b 244311 38013 448909 4329 —351 |—10379| —3267 129 
b 290076 51684 787382 15546 876 1916; —1374 | —402 100 
= 279101 52959 887137 20525 1595 11671 1633 =J} = 1 
— 217640 42704 749372 18554 1604 14180 3050 340 256 = 
ss 118745 23699 425412 10868 983 9315 2252 316 459 13 
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续 表 

En 25 23 21 19 17 15 13 11 9 到 S 

0 0 0 0 0 0 0 0 0 0 0 

1 —118745 23699 425412 10868 983 9315 2252 316 459 13 

2 一 217640 42704 749372 18554 1604 14180 3050 340 256 8 

3 — 279101 52959 887137 20525 1595 11671 1633 11 457 m. 

4 — 290076 51684 787382 15546 | —876 | —1916 1374 402 | —100 

5 —244311 | 一 38013 | 一 448909| 一 4329 351 10379 3267 | —1298 

6 —144616 | —13632 62644 9818 1508 14404 1430 

7 一 5131 16583 598094 20342 1547 | —8081 

8 146408 43928 908004 16796 | —1144 

9 266403 55233 625974| —15810 

10 293128 32224 | — 748068 

1l 144463 | —49115 

12 — 284372 
归 一 化 常数 | 57228600 | 7498920 (84987760 | 1307504 | 67184 | 335920 | 38896 2288 1144 8 



































三 、 基 于 小 波 分 析 的 求 导 方法 


由 于 小 波 函 数 的 特点 ， 基 于 某 些 小 波 函 数 ， 利 用 连续 小 波 变 换 (continuous wavelet 
transform, CWT) 和 离散 小 波 变换 (discrete wavelet transform, DWT) 也 可 进行 谱 函 数 
的 导数 计算 (有 关 小 波 分 析 的 详细 介绍 ， 读 者 可 参考 本 章 的 第 三 节 第 四 小 节 )。 

(一 ) 连续 小 波 变 换 求 导 方 法 

小 波 方法 是 信号 分 析 中 最 有 用 的 工具 之 一 。 小 波 pa, s(t) 则 是 一 系列 的 函数 ， 它 们 由 也 
数 y(t) 经 过 尺度 变换 和 平移 得 到 ， 变 换 公 式 如 下 : 






































da, s(t) = (E). a€ RV, DER (5-31) 
a 


UB. a 为 尺度 因子 ; 5 则 为 平移 参数 ; y(t) 为 小 波 母 函数 。 
小 波 变 换 可 看 作 将 信号 投影 到 小 波 函 数 空间 中 ， 该 过 程 可 用 下 面 的 数学 公式 描述 : 


























上 ce 
C(a, 0)= (OD, b. so» =| s)gpa, y G)dt (5-32) 





式 中 ,s(t) 为 信号 ; ABER C 则 是 小 波 系数 。 与 离散 小 波 变换 (DWT) 相 比 ， 连 续 小 波 
变换 CWT) 的 尺度 与 平衡 参数 均 连 续 ， 因 此 具有 更 好 的 分 辨 能 力 。 

利用 连续 小 波 变换 CWT 和 特定 的 小 波 ， 能 够 通 近 分 析 信 和 号 的 导数 。Haar 函数 由 于 
其 对 称 性 ， 是 最 适合 用 于 求 导 的 小 波 函 数 之 一 。 在 求 信号 sa) 的 nn 阶 导 时 ， 可 以 对 信号 进 
41 n 次 Haar 连续 小 波 变 换 。Haar 小 波 函 数 是 最 简单 的 小 波 函 数 ， 定 义 如 下 : 














1 I 


| < /二 1 


他 





o 
apo 





mx 分析 信 号 处 至 





方法 | 


205 l 


通过 构建 加 入 不 同 噪声 水 平 的 四 个 模拟 色谱 峰 来 研究 噪声 对 Haar 连续 小 波 变 换 和 简单 


数值 差分 求 导 方 法 的 


E 
p 


响 。 将 这 四 个 信号 及 它们 用 连续 小 波 和 数值 差分 所 求 出 导数 绘 于 图 5- 


5 中 ， 图 5-5 中 左边 的 四 个 子 图 中 的 虚线 为 Haar 小 波 变换 得 到 的 导数 ， 右 边 四 个 子 图 中 的 
虚线 为 采用 简单 数值 差分 求 导 方 法 得 到 的 导数 。 从 图 5-5 中 可 明显 看 出 ， 简 单数 值 差分 只 适 
用 于 噪声 较 小 、 信 噪 比较 高 的 情况 。 而 Haar 小 波 变 换 即 使 在 噪声 很 大 的 情况 下 ， 求 出 的 信 
号 的 导数 依然 适用 于 峰 的 检测 和 峰 宽 估计 。 现 在 ， 在 MATLAB 中 ， 有 一 个 cwt 函数 ， 通 过 
设置 适当 参数 ， 可 以 用 于 导数 计算 。 图 5-5 中 左边 导数 可 用 如 下 代码 计算 出 : 





噪声 方差 为 0.001 






































0.02 

0.01 

0 
-0.2- ^ii" 1-0.01 
-04L 1-0.02 
s 2 4 6 i 





cwt(x,10, haar’); 





噪声 方差 为 0.001 












































不 同 的 噪声 水 平 对 简单 数值 差分 求 导 和 连续 小 波 变换 求 导 方法 的 影响 























《二 ) ABURI 


RR S379 X 








连续 小 波 变 换 尺 度 因 子 a 和 平移 参数 0 是 连续 的 。 当 尺度 因子 a 离散 成 2 WEK a= 
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2i, b=2ik) 时 ， 就 由 连续 小 波 变换 变 为 二 进 小 波 变换 (dyadic wavelet) ， 当 二 进 小 波 变换 
再 引入 快速 多 分 辨 率 信号 分 解 算法 Mallat 算法 时 ， 就 会 得 到 现在 通常 采用 的 离散 小 波 变 
换 。 因 此 将 尺度 因子 a 和 平移 参数 5b 离散 成 2 的 罕 次 的 二 进 离散 小 波 变换 与 基于 Mallat 算 
法 离散 小 波 有 些 类 似 于 离散 健 里 叶 变 换 与 快速 全 里 叶 变 换 的 关系 。 

与 傅 里 叶 变 换 类 似 ， 信 号 f(x) 能 够 分 解 为 系列 的 小 波 函 数 ， 可 以 用 式 (5-33) 
描述 : 








二 ce 
f(x)= S3 cg GO (5-33) 


—ook = 一 co 





RP, G MERA j 为 尺度 水 平 。 

Mallat 于 1989 年 提出 了 快速 多 分 辩 率 信号 分 解 算法 ， 该 方法 效率 高 、 速 度 快 ， 很 快 成 
为 信号 处 理 中 流行 的 工具 。Mallat 算法 主要 将 信和 号 与 高 通 小 波 滤波 系数 卫 和 低 通 小 波 滤波 
系数 工 进行 卷 积 运 算 ， 信 号 可 以 转换 为 : 


Cj, k —42 X cja, NL N—2k (5-34) 
N 

















以 及 


d;, 4 —42 P ycj-a, Nh N-k (5-35) 
N 





在 式 (5-34) 和 式 (5-35) 中 7 Mh AIRRA B UE ER. CRA RUE HEE : 
ha — C Dia 
H Ša =1 M 9,0, X (5-34) 以 及 式 (5-350 的 输出 C; (C; = (c; 4D ID; (D; = 

k k 
(dj, aD 分 别 为 概貌 信息 及 细节 信息 。 

小 波 函 数 有 多 种 ， 化 学 中 常用 Daubechies 和 样 条 族 小 波 处 理 仪器 信号 ， 达 到 数据 压缩 
或 平滑 的 目的 。Daubechies 族 小 波 函 数 可 以 用 Don 表示 ，m 为 1 一 10 范围 内 的 整数 。 梁 启 
XÆ ALIE 1998 年 将 Daubechies 族 小 波 函 数 用 于 分 析 信 和 号 导数 计算 ， 信 和 号 X 的 一 阶 导数 
可 以 表示 : 





























XD ~C, p, — C1, Doz m m 
Dom M Don 表示 任意 两 个 Daubechies 小 波 函 数 。 高 阶 导数 可 以 通过 将 比 其 低 一 阶 的 导数 作 
为 离散 小 波 变 换 的 输入 来 计算 。 因 此 任意 阶 导 数 可 以 利用 如 下 和 迭代 公式 描述 : 
XO ~ Ci, 54, — Ci, p; mminzl (5-36) 
P, Cip, 和 Ci,p 和 分 别 是 对 X 5 HET Do, 和 D2 离散 小 波 变换 得 到 的 概貌 信 


息 。 梁 启 文 等 通过 系列 模拟 数据 测试 ， 以 Ds 和 Dis 小 波 滤 波 系数 可 得 到 最 佳 的 导数 计算 
结果 












































采用 与 上 方 相同 数据 比较 在 不 同 噪声 水 平 下 ，Daubechies 离散 小 波 变 换 和 简单 数值 差 
分 求 导 方法 的 效果 。 将 这 四 个 信号 及 它们 用 离散 小 波 变换 和 数值 差分 所 求 出 的 导数 绘 于 
5-6 H, K 5-6 中 左边 的 四 个 子 图 中 的 虚线 为 Daupechies 离散 小 波 变 换 得 到 的 导数 ， 右 
边 四 个 子 图 中 的 虚线 为 采用 简单 数值 差分 求 导 方法 得 到 的 导数 。 从 图 5-6 中 可 明显 看 出 ， 
简单 数值 差分 只 适用 于 噪声 较 小 、 信 噪 比 较 高 的 情况 ， 而 Daubechies 离散 小 波 变换 即使 在 
噪声 很 大 的 情况 下 ， 亦 可 得 到 令 人 满意 的 结果 。 在 利用 Matlab 中 的 离散 小 波 函 数 计算 导 
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数 时 ， 需 调用 dwtmode 函数 ， 将 离散 小 波 变 换 模 式 设置 为 周期 化 模式 (periodization 
mode ， 保 证 计算 出 的 Ci.p M Ci, pbs; 长 度 一 致 ， 可 进行 向 量 减 法 运算 ， 得 到 导数 。 








Ii p 7; 25 70.001 I p 7; 25 70.001 
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第 三 节 分 析 信 号 的 变换 方法 


变换 方法 是 分 析 信 号 预 处 理 中 一 种 很 有 用 的 方法 。 很 多 变换 方法 就 是 直接 内 置 于 分 析 
仪器 之 内 ， 由 仪器 量 测 所 得 数据 就 已 是 通过 变换 预 处 理 的 。 本 节 将 要 讨论 的 卷 积 运 算 、 
光谱 多 重 效应 的 Hadamard 变换 就 是 这 样 的 例子 。 此 外 ， 对 于 在 光谱 特别 是 红外 光谱 中 得 
到 极其 广泛 应 用 的 傅 里 叶 变 换 将 在 本 节 给 出 较 详 细 的 介绍 ， 而 对 于 近年 来 在 近代 数学 得 
以 迅速 发 展 的 小 波 变换 及 其 在 分 析 化 学 中 的 应 用 ， 则 是 本 节 介 绍 的 重点 。 
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一 、 卷 积 运 算 的 物理 意义 


卷 积 是 统计 学 中 一 个 十 分 重要 的 概念 ， 在 分 析 信 号 处 理 中 有 着 十 分 重要 的 意义 ， 为 便 
于 理解 ， 试 以 一 光谱 分 析 的 实例 加 以 说 明 [3]。 

设 有 一 光谱 线 ， 以 f(x) 表述 ， 其 真实 图 形 如 图 5-7 GO 所 示 ， 用 光谱 仪器 记录 这 一 
谱 线 ， 即 通过 一 狭 缝 沿 x 轴 进 行 扫 描 ， 如 果 狭 缝 是 无 限 窜 的， 接受 器 记录 的 光谱 应 与 
(b) 完全 相同 ,但 实际 的 光谱 仪器 的 狭 缝 均 有 一 定 宽度 。 设 这 一 狭 颖 可 用 函数 h(x) K 
R, WE 5-7 (b) 所 示 。 从 此 图 可 以 看 出 ， 狭 缝 函 数 ( 三 角形 函数 ) 表述 的 意义 ， 是 在 
不 同 x 值 下 狭 缝 接受 的 光 强 达到 狭 颖 中心 点 所 对 应 的 光 检 测 器 的 分 数 ， 也 就 是 说 ， 凡 经 
狭 缝 透 过 的 光 均 有 一 部 分 会 达到 中 心 点 所 对 应 的 光 检 测 需 ， 函 数 疡 即 是 达到 中 心 点 光 强 
的 量度 。 作 为 示意 图 ， 图 5-7 给 出 的 是 狭 缝 中 心 点 位 于 x 二 11 时 的 情况 。 
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GED 交 诺 狭 颖 对 谱 图 量 测 的 影响 示意 图 "" 
(a) 原始 光谱 线 SO; (D ERMA); CO. 光 检测 器 测 得 的 光谱 Go 








从 图 5-7 可 以 看 出 ， 这 种 光 狭 缝 移动 检测 光谱 而 使 光谱 变 宽 的 情况 ， 与 前 面 讨论 的 移 
动 窗口 平滑 法 是 相似 的 , h(x) 函数 就 相当 于 权 函 数 ， 故 Savitgky 和 Golay 前 述 的 移动 窗口 
多 项 式 拟 合 法 就 称 为 卷 积 法 。 如 设 g(x) 为 光 检测 器 测 得 的 光谱 [参见 图 5-7 (CO ]. 那么， 
由 于 狭 缝 函数 的 作用 而 使 其 相当 于 原始 的 光谱 f Cr) 变 宽 了 ， 此 时 ， 量 测 到 的 谱 线 g(x) 为 : 














g[rG)]— >) f(x) *A[xG)—z] (5-37) 


= —m 





X (5-37) 即 为 卷 积 运算 的 离散 表达 式 ， 与 前 述 移动 窗口 加 权 平 均 是 类 似 的 。 同 时 ， 
AX (5-37) WU ELE IB. N=2m +1 HIRA SE BE. 式 (5-37) Rom IAEA x GO 为 中 心 点 
时 的 量 测 光 谱 之 强度 。 因 狭 颖 函数 h(x) EAk EZI ENE, MAN 5-37) 如 用 连 
续 形 式 示 出 则 变 为 











--oo 


Hec 
s[zGD] 一 | fx) e h[xG)—x]dx (5-38) 
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peo 
sof fæ) e hly — x2dx (5-39) 


AP, g(y) 称 为 图 数 f(y) 与 h(y) WER, WASO). h). BIRDIE, Wh 
PRLZBCFEDI A b T Ee 0E 

在 光谱 宽度 的 例子 中 , f(x) 是 未 受到 挠 动 的 谱 线 〈 原 始 谱 线 ), hCy 一 x) 是 变 宽 函 数 ， 
g GO 是 量 测 到 的 谱 线 。h(y 一 +) 这 个 变 宽 函数 不 一 定局 限于 上 例 所 述 狭 缝 宽度 有 限 引 起 的 
变 宽 。 任 何 一 种 光谱 变 宽 都 可 以 用 卷 积 积分 来 表述 ， 如 原子 光谱 线 的 多 普 勒 (Doppler) 变 
宽 、 碰 撞 变 宽 等 。 以 后 还 可 以 看 到 ， 利 用 传 里 叶 变 换 可 以 很 容易 地 进行 卷 积 的 重要 运算 ， 卷 
积 运算 实质 上 也 是 一 种 变换 运算 。 

二 、 光 谱 分 析 的 多 重 性 效益 与 Hadamard 变换 

光谱 分 析 的 多 重 性 效益 的 基本 思路 可 以 称 量 试验 设计 来 加 以 说 明 [ 引 。 设 有 4 个 未 知 
质量 的 合金 样 ， 按 传统 方法 称 量 每 一 个 试 样 ， 设 称 量 得 方差 为 o2 ， 则 单独 称 量 x; (i 二 l, 


2.3.4) 得 到 的 结果 的 方差 为 a2。 但 如 设计 一 试验 ， 同 时 将 此 4 个 合金 样 以 不 同 组 合 置 于 
天 平 两 人 出， 如 : 






























































A REA Qo UE AL (5-402) 

Ge MN AN DL RR (5-40b) 

mM; =£]; £; Fr, — x, es (5-40c) 

m, =x; Hz; — x; — 2, +e, (5-40d) 

即将 4 个 合金 样本 全 置 于 左 盘 加 夸 码 mis xi. x, 置 于 左 盘 ，zs* ，zs 置 于 右 盘 加 夸 
Em; 余 此 类 推 。 由 上 述 方程 组 可 求 出 z; ， 例 如 v. 的 估计 值 








zi—10/AOn; +m; tm; d m4) — x, 4 1/AXe; 


可 见 ， 此 时 误差 为 原 误 差 的 1/4， 即 方差 为 o?/16。 
前 述 的 单一 称 量 可 表述 为 〈 略 去 误差 项 ) 


mi; 1000 X1 

m» 0 1 0 0 X3 
= (5-41) 

ma 00 1 9| z 

mu 0 0 0 1f lz 

即 

m 一 Ax (5-42) 
x= A !m — Am (5-43) 


在 此 A^! 一 A。 这 种 计算 固然 十 分 简单 ， 但 每 一 样本 只 称 量 了 一 次 ， 而 前 述 经 试验 设 
计 方案 ， 同 样 略 去 误差 项 ， 可 写 为 

















m 1 1 1 1 X1 
70» 1 —1 — 1 1 X2 
z (5-44) 
ms 1 —1 1 一 1| |z; 
m 1 i wu 
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式 (5-44) 右 侧 的 矩阵 称 为 Hadamard Æ, WAH, WMA 








m 一 Hx (5-45) 
显然 ， H 的 各 元 素 H mn 的 绝对 值 均 为 1 
| H mn |= 1 
逆 和 矩阵 的 计算 同样 简便 s 
1 
m co dari m 
H = N” (5-46) 








这 一 称 量 试验 设计 思想 ， 被 用 于 光谱 分 析 中 的 试验 设计 ， 传统 的 扫描 方法 测试 光谱 ， 
每 次 测 一 个 波长 的 光 强 度 ， 如 改 为 同时 测定 多 个 波长 的 光 强 度 ， 若 有 ON 个 波长 的 话 ， 进 
fT N 次 不 同 的 组 合 测 试 ， 应 能 减少 测试 误差 ， 或 改善 光谱 测量 的 信 咯 比 。 按 上 述 方法 设 
计 试 验 ， 要 有 十 1 与 一 1 两 种 取 值 ， 如 改 为 十 1 与 0 两 种 取 值 ， 则 技术 上 较 易 实现 。 实 现 
这 种 测试 光谱 的 具体 方法 ， 是 将 色散 系统 的 入 光 狭 颖 或 出 光 狭 终 ， 由 单个 波长 (或 最 小 
分 辨 ， 疾 缝 改 为 打开 整个 测试 光 域 , 但 装置 障 板 遮盖 一 部 分 波长 ， 让 其 他 波长 处 的 光 通 
过 。 设 需 测试 7 个 波长 处 的 光 强 度 y，G 二 1，2，…，7)， 传 统 的 方法 是 将 色散 系统 转动 
使 yi 到 yr 依次 通过 一 很 窄 的 狭 缝 ， 每 次 测 一 个 y;。 而 仿照 称 量 试验 设计 装置 的 分 光 计 ， 
则 可 同时 测定 若干 y; 。 如 设计 的 障 板 在 yj; 处 任 其 通过 ， 记 为 1Xy;， 如 在 yj; 处 有 障 板 使 
光 不 能 通过 ， 记 为 0Xy;。 这 种 0-1 障 板 如 有 下 列 顺序 1001011， 则 测 得 的 总 光 强 为 
































p =1X gp FOX gp: tOoOXystlXy tOoOXystlxyetlxyr 


= Ji F da Fps d yr 





只 要 能 设计 7 个 相互 独立 的 测量 组 合 ， 测 出 7 个 总 y 值 ， 即 可 解 出 各 . PROBE 
就 是 这 种 组 合 之 一 : 
[10 0 10 1 1] 
1 1 0 0 10 1 
1 1 10 0 10 
s=|0 1 1 1 0 0 1 (5-47) 
1 0 11100 
0 101110 
[o 0 1 01 1 1 








这 一 矩阵 称 为 Sylvester E, MA Hadamard 和 矩阵 导出 。 这 个 组 合 将 第 一 行 居 最 后 的 
元 素 置 于 下 行 最 前 作 第 一 元 素 ， 而 1 一 6 元 素 则 右 移 一 位 排 到 第 二 行 ， 余 类 推 。 一 般 来 
说 ， 如 需 测 量 N 个 光谱 单元 ，S 和 矩阵 由 元 素 Sj; 组 成 ，S; 取 值 为 0 或 1。 共 有 工 个 组 合 ， 
每 个 组 合 G-—l.ce. L) 测 得 的 光 强 将 为 Si;y;， 加 测量 误差 得 




















N 
Y,— MS; +e; (2 lc IL) (5-48) 
i-1 


这 种 测量 方法 可 称 为 光谱 测量 的 编码 过 程 ， 这 里 用 的 是 Hadamard 编码 ， 这 样 设 计 的 
光谱 仪器 称 为 Hadamard 变换 光谱 。 
借 Hadamard 编码 构造 光谱 仪器 并 不 需要 制作 N 个 这 种 不 同 组 合 的 障 板 。 例 如 N=3 
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时 ， 可 构造 一 个 (11011) 的 障 板 ， 其 最 左 三 个 位 置 相 当 于 110， 向 右 移动 一 位 量 测 ， 得 
101， 再 移 一 位 ， 得 011。 即 得 N—3 的 Hadamard 变换 阵 。 这 样 ， 构 造 一 个 含 (2N 一 1) 
狭 颖 的 障 板 ， 可 代替 N 个 独立 障 板 。 对 任意 N—2r—1 G 为 正 整数 ) 均 可 实现 这 样 的 狭 
颖 系列 ， 得 到 例如 











Ni 1 1 Oli 

y2|—|1 0 1||ge (5-49) 

y3 0 1 1lllgjs 

Hil 
y=Sy (5-50) 
y—S ly (5-51) 
s -1 可 通过 将 SS 中 的 0 换 成 一 1 得 到 , 式 (5-51) SN: 

一 1 1 一 1 

S-1 一 | 1 一 1 1 (5-52) 
—] —1 1 





因此 ， 解 码 过 程 是 十 分 简便 的 。 
Hadamard 编码 使 光谱 分 析 信 噪 比 提 高 (NT1)V/2NI2 f. 在 六 很 大 时 ， 约 为 NT 72 





这 种 光谱 多 重 性 效益 ， 又 称 Fellgett 效益 ， 其 原理 与 前 面 称 量 设计 中 说 明 的 误差 降低 
的 情况 相同 ， 用 Hadamard 变换 设计 的 红外 光谱 与 常规 红外 光谱 比较 ， 确 有 改善 信 噪 比 的 
效果 OLEI 5-8) 。 





























检测 器 
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挡 板 





(b) 


光谱 多 重 性 效益 示意 图 
(a) 普通 光谱 仪 的 示意 图 ; (b) Hadamard 变换 光谱 仪 示意 图 


Hadamard 变换 与 下 节 讨 论 的 傅 里 叶 变 换 的 不 同 处 在 于 它 是 基于 方 波 型 函数 ， 而 传 里 
叶 变 换 则 是 以 三 角 函 数 为 基础 的 。 除 实现 多 重 性 效益 外 ，Hadamard 变换 还 用 于 多 重 性 分 
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析 与 数据 变换 ， 例 如 信号 压缩 、 化 学 模式 识别 中 特征 参量 抽取 等 。 一 般 认为 侍 里 叶 变 换 
是 更 强 有 力 的 分 析 信 号 处 理 的 手段 ， 但 Zupan YEE, Hadamard 与 全 里 叶 变 换 用 于 红外 
光谱 信息 的 压缩 效率 相同 ， 而 Hadamard 变换 在 运算 速度 上 较 傅 里 叶 变 换 有 一 定 优越 性 。 
与 快速 傅 里 叶 变 换 比 较 ， 人 快速 Hadamard 变换 由 于 只 含 加 减 运 算 ， 速 度 约 为 快速 傅 里 叶 变 
换 的 8 一 10 fii. 


三 、 傅 里 时 变换 用 于 分 析 信 号 处 理 


任何 随时 间 变 化 的 性 质 均 可 以 分 解 为 其 谐 波 组 分 ， 声 波 是 最 典型 的 例子 。 茶 种 乐器 的 
复杂 声波 可 借 多 种 音频 振荡 器 组 合 将 其 重 现 出 来 。 而 反 过 来 ， 人 们 聆听 一 个 交响 乐团 演 
奏 时 ， 可 分 辨 出 单个 乐器 的 声调 和 它们 奏 出 的 特定 旋律 ， 人 耳 存 这 里 所 做 的 工作 实际 就 
是 本 节 要 讨论 的 傅 里 叶 变 换 。 傅 里 叶 变 换 这 一 强 有 力 的 数学 工具 的 建立 ， 本 身 就 是 人 类 
认识 自然 能 力 的 体现 。19 世纪 之 初 ，J. B. J. Fourier. Cf npo 在 其 繁忙 的 社会 活动 及 人 研 
究 埃 及 文明 ， 出 版 21 卷 巨 著 之 余 ， 在 数学 、 物 理学 方面 也 做 出 了 非凡 的 贡献 。 他 研究 热 
传导 的 分 析 理 论 ， 证 明 可 用 正弦 与 余弦 组 成 的 级 数 表达 热传导 过 程 ， 这 就 是 熟知 的 数学 
分 析 中 的 传 里 叶 级 数 ， 传 里 叶 将 这 些 概念 推演 到 傅 里 时 积分 。 这些 数 学 工具 使 人 们 习惯 
的 时 域 波 形 可 变换 到 频 域 进行 考察 。 这 样 杰 出 的 科学 成 就 远 远 超出 了 传 里 叶 同 时 代 的 许 
多 人 所 能 理解 接受 的 程度 ， 直 到 傅 里 叶 去世 前 两 年 (1828 年 )， 仍 有 当时 颇具 有 影响 的 数 
学 家 把 某 些 “ 级 数 ” 贬 为 “魔鬼 的 创造 ”， 认 为 用 数学 上 这 种 异端 邪说 去 推演 自然 现象 是 
一 种 对 科学 的 “羞辱 ”5 。 传 里 叶 理 论 的 价值 在 他 去 世 后 一 个 多 世纪 才 逐 步 为 科学 界 所 
认识 。 


傅 里 叶 级 数 得 出 的 是 离散 频谱 ， 是 时 域 的 波形 变换 中 的 信息 。 傅 里 叶 级 数 可 写成 





































































































rO)-— ag > lascos mist 十 bnsin(nvwot) (5-53) 
n=l 
式 中 wo = 2nfo 
fo = 1/t 
ao RART “HAR”, Hra) 在 一 个 周期 CT) 内 的 均值 确定 
1 [E 
üg — x], xc (5-54) 


其 余 系 数 An» b, 为 


2 [T 
an 一 z[ x (Gt) cosCmovot) dt 


T 
Dn — zl X(t)sin(nwot)dt (n = 1.2.3,:-) 
0 





因此 传 里 叶 分 析 是 频谱 分 析 ， 这 与 用 棱镜 或 光栅 将 化 学 光谱 激发 光源 发 生 的 光 分 解 为 
不 同 波长 的 谱 线 是 完全 类 同 的 。 

传 里 叶 级 数 是 研究 周期 函数 的 工具 ， 而 全 里 叶 积 分 则 用 于 研究 非 周 期 函数 。 为 了 过 渡 
PERIS, S cos(2xnf0t) 表 示 为 














e/2nnf ot 十 e j2znfot 


cos(2zmn f ot) 一 2 (5-55a) 
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eJ2nnf ot -— e J2nnfot 


sin(C2znfot)— : (5-55b) 
2j 





经 变换 , 傅 里 叶 级 数 可 表示 为 


rGü)— 2D) Croo (5-56) 


n= 一 co 


C, TE n 等 于 一 ce,… ,一 1,0,1,2,… ,co 时 取 值 


T 


(s -于 | > (22 ei2nnfot dt (5-57) 
对 于 每 一 个 nw，C， 将 得 出 z G0 具有 频率 f —nf o 的 谐 波 组 分 的 振幅 和 相 。 有 了 这 些 基 
本 概念 ， 将 直接 给 出 传 里 时 变换 的 定义 。 
设 有 时 间 函 数 x (:) ， 其 传 里 时 变换 表达 式 为 














rCGOD =| eerde (5-58) 











如 对 参量 / (频率 变量 ) 的 每 一 个 值 ， 该 积分 都 成 立 ， 则 式 (5-58) MET x GO WREN 
变换 为 XCF) 。 这 里 按 习 惯 将 时 间 函 数 写 为 x (1) ， 其 傅 里 时 变换 写作 XX(f) 。 可 以 设想 ， 
在 光谱 化 学 分 析 中 从 物质 的 电磁 波 解 码 得 到 光谱 ， 实质 上 就 是 求 取 这 个 电磁 波 的 傅 里 叶 变 
换 ， 棱 镜 与 光栅 从 某 种 意义 上 说 ， 是 强 有 力 的 傅 里 叶 变换 器 。 这 一 事实 本 身 就 决定 了 傅 里 叶 
变换 这 一 数学 工具 对 化 学 测量 的 特殊 意义 。 但 傅 里 叶 变换 不 限于 变换 激发 光源 发 生 的 波形 为 
频谱 ， 它 能 将 各 种 不 同 的 波形 从 时 域 变换 到 频 域 ， 而 具有 更 广泛 的 意义 ,例如 在 电化 学 测量 
中 的 应 用 。 


傅 里 叶 逆 变 换 定义 为 



































aD =| XPE (5-59) 





借 式 (5-59) 可 由 XX(f) 反 过 来 确定 x (4) ， 也 就 是 说 借 上 述 式 (5-58)、 式 (5-590 可 在 
时 域 函 数 x GO 与 频 域 函数 X fO 之 间 进 行 任意 交换 ， 即 : 
XASS) (5-60) 
在 此 值得 特别 提出 的 是 ， 傅 里 叶 变换 就 是 将 时 域 的 任何 谱 信号 变换 到 频 域 中 来 进行 考 
察 ， 从 而 得 到 很 多 不 同 信息 ， 可 解决 很 多 信号 处 理 中 的 难点 问题 。 下 面 通过 一 个 简单 例子 来 
加 以 说 明 。 图 5-9 (a) 示 出 的 是 一 个 很 普通 的 曲线 ,但 它 实 际 是 由 3 个 不 同 频率 sin 或 cos 
函数 合成 的 ， 图 5-9 (b) 示 出 的 是 该 曲线 傅 里 叶 变 换 的 结果 ， 给 出 了 3 个 频率 ， 其 大 小 也 
在 图 5-9 C) 中 给 出 。 
(一 ) 傅 里 叶 变 换 的 基本 性 
CD 线性 加 合 性 : 

































































D 





rG)tyG)XSXOD0-cTYCGO (5-61) 
(2) 对 称 性 : 
xrGa)erC— f) (5-62) 


(3) 时 频 伸缩 性 : 
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(c) 
《要 。 傅 里 时 变换 将 时 域 的 谱 信号 变换 到 频 域 中 的 一 个 实例 








s(x (EF)] (5-63) 
la| \a 
1 t 
Es x(-exen (5-64) 
a a 
(4) 时 移 性 与 频 移 性 : 
(t —t9)€9 X CfDe J?nfto (5-65a) 
x QD eitnfot e X Cf — fo) (5-65b) 


(5) 实 偶 奇 函数 变换 特性 : 











对 实 侦 函 数 :x.(1)= 二 zx.( 一 1) 则 ze. OX(f) 
对 实 奇 函 数 ;:zx0(7) 二 一 50( 一 1) 则 x4;020€69jXoC) 
(二 ) 离散 健 里 叶 变 换 及 光谱 多 重 性 效益 


















































在 化 学 信号 预 处 理 中 ， 一 般 用 到 的 是 离散 传 里 叶 变 换 ， 是 化 学 量 测 如 数字 化 光谱 或 电 
化 学 量 测 中 常见 的 情况 。 如 将 z (1) 的 各 离散 值 在 均匀 时 间 间 隔 A 进行 记录 ,可 得 序列 样本 值 : 


1,0,1,2,3," 

















n=", 3 2, 


r,—crOnA) 


时 间 区 间 的 倒数 1/A 称 为 采样 速率 ， 如 A 以 秒 计 ， 则 1/A 是 每 秒 记 录 的 样本 值 个 数 。 采 样 
定理 0 还 定义 一 特征 的 频率 fo. Fk Nyquist 临界 频率 : 


fo=1/2A 


例如 ， 对 一 正弦 波 ， 临界 采 样 频率 是 每 周期 在 两 点 采样 ,根据 采样 定理 ， 作 为 时 间 的 函数 
x (zt) 是 分 析 信 号 ， 设 其 频率 的 最 高 值 限于 fo(Hz) ， 要 确定 在 时 间 全 内 的 状态 ， 无 须知 道 
全 部 瞬时 值 ， 而 仪 需 知道 该 分 析 F SAREA AAA, 这 些 样 值 一 经 确定 ， 该 分 
析 信 号 的 波形 就 可 完全 由 这 些 采 样 值 再 现 出 来 。 通 过 在 量 测 的 周期 内 均匀 等 距 采 集 2f o T 个 
样 ， 即 可 取得 这 一 分 析 信号 所 包括 的 全 部 信息 ， 这 对 设计 数字 化 的 分 析 仪 器 具有 重要 意义 
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在 此 仅 就 有 限 个 采样 点 读 取 的 时 域 函 数 的 离散 傅 里 叶 变 换 加 以 阐述 
RRR N 个 序 贯 样本 值 : 


X =x (t, ); t, = kA kb —0,1.2.:,n—1 
式 中 ， 采 样 区 间 是 A， 为 简化 讨论 ， 设 N 是 偶数 。 
从 z(t) SI XCO ， 在 区 间 一 六 至 fo 内 不 谋求 得 到 所 有 了 下 的 XC(f) 值 ， 而 只 要 求 估计 
其 中 部 分 离散 f, FIX): 


f», —n/NA n ——2/N,::.N/2 (5-66) 


NPF, n 的 最 大 最 小 取 值 对 应 于 Nyquist 临界 频率 所 限定 的 频 域 上 下 限 。 现 试 以 离散 值 
之 和 近似 表达 的 连续 傅 里 时 变换 . 

















"十 co 
XC. =| red = A S Xie ELLE -AÑ xee- j2a (ng) t8 


k=0 


N=1 
一 A>) Xre itt (s) 


k=0 


这 就 是 所 请 离散 傅 里 叶 变 换 (DFT)， 亦 即 


n—1 
X(n) = Pr QD eit (X) (5-67) 


k=0 


X(k) = 二 THX i) (5-68) 


N ;= 0 
MIÈ (5-67) 及 式 (5-68) 可 以 看 出 ， 只 要 对 时 频 信 号 (例如 用 宽 光 域 的 检测 器 ) 在 N 个 
等 距 时 刻 进行 采样 ， 得 到 N 个 时 域内 的 数据 点 x (ti ) EX m ORO ， 而 每 一 个 这 样 的 数据 点 又 可 
借 DFT 转换 为 频 域 的 振幅 序列 X(f,) 或 X(n) ， 这样 ， 前 小 节 讨 论 的 光谱 多 重 性 效益 ， 同 
样 可 借 傅 里 叶 变 换 来 实现 ， 对 于 Hadamard 变换 ，m — Hx， 可 以 采用 由 傅 里 叶 变 换 编码 组 
成 的 矩阵 来 实现 光谱 多 重 性 效益 ， 即 

















m —Fx (5-69) 
F 的 元 素 Fu 


F ma ^ exp(2ngmn / N) —cos(2zxmn / N ) 3- j sin(2xmn/N) (5-70) 


Xm. J 5v ， 易 见 | Em | = 二 1。 令 N= 4, 将 有 


mı 1 1 1 1| *i 
mMm | | 1 j —1 j To 
ms| d —l 1 -llz, 
ma, [oc c J X 


值得 提出 的 是 ， 用 Hadamard 变换 ， 每 次 只 能 量 测 一 部 分 频率 的 信号 ， 而 DET 则 可 每 次 量 
测 所 有 频率 的 信号 ， 信 噪 比 的 改善 将 为 NT, 图 5-10 示 出 了 傅 里 叶 变换 与 Hadamard 变换 
的 区 别 ， 从 图 5-10 可 以 看 出 ， 两 种 变换 虽 存 在 很 多 差别 ， 但 实质 上 它们 还 是 有 很 多 相通 之 处 的 。 
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Hadamard 变 换 的 车 函 [EET 
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BEHE Hadamard 变换 的 区 别 
(a) Hadamard 变换 ; (b) WE nh% 
























































(Z) FFT 及 其 在 光谱 与 电化 学 量 测 中 的 应 用 
前 小 节 所 述 的 离散 健 里 叶 变 换 (DFT) 适用 于 计算 机 运算 。 如 定义 ww 为 一 复数 ， 


w = e72 rj /n (5-71) 





























则 DFT 的 表达 式 改 为 : 
N—1 
Xa) — Pix Rw (5-72) 
k-—0 
现 考察 一 下 ， 按 式 (5-72) 来 计算 ,将 会 遇 到 什么 问题 。 对 每 一 个 X(n) ， 需 作 N? 次 乘法 ， 
(N 一 1) 个 复数 加 法 。 如 此 ， 即 使 使 用 计算 机 ， 计 算 量 也 十 分 大 。 
快速 傅 里 时 变换 (fast Fourier transform, FFT) 的 基本 思路 是 分 解 式 (5-72) ， 以 减少 
运算 。 在 N EA HRR B N —2«4. a 为 正 整数 )， 这 种 分 解 十 分 方便 ， 现 以 N= 
22? —4 H hn LAHE], Bp 











4—1 
X(n) — Pr, GOow"* n —0,1,2,3 (5-73) 


k=0 








HEr) 为 zo(k) ， 以 表示 在 未 简化 计算 前 原始 的 x(k) 项 ,将 式 (5-73) 展开 ， 
将 有 
X(0) =r, Cw? tro (Dw? tro G)w? x, (G)w? 
X (1) 9x, Ow x, Aw! +r, Dw x, (G)w? 
X(2) 9x, Cw? Fx, w? +r, G)w x, ()w* 
X(3) xz, CD w? Fx, Ow? +r, Dw ro 3w? 
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X0) wu w9 «x9 will Tu) 


Xa) w? wl w? w?|!zcj0D 


= (5-74) 
X(2) w? w? wt w’ z (2) 
X (3) w? w? w? w? zi(3) 
或 
x i) —W"* x9 CR) (5-75) 
注意 到 ww 二 e ?U/NBauo'—e IuOSUD,. ， 所 以 ， 当 (kn/N) 为 0 和 9 正 整数 A 时 
w” = e rA) =e *0 =] 
因为 当 kn 不 为 4 的 整数 倍数 时 ， 将 只 需 对 (kn/4) 取 余 即 可 ， 也 就 说 如 kn=6 时 ， 
ww? — e i229/4 一 ce-i2r(4/4) ei 2n(2/4) — e G2x/02 — w? 
Hb. x (5-74) 可 进一步 简化 为 
X0) 1 1 1 11zok0) 
X(1) 1 wl w? w|) 
= : 2 (5-76) 
X (2) l w? w wje, 
3 E E 
X(3) 1 w w w x, (3) 
HB. 
wl=e jO/D = eTit? —-cos(x/2) —jsin(n/2) ^ —j 
3 一 e J8G/0 =e j32/7 —cos(3x/2) —j sin 3x/2) —j 
w? -—e jÓO/D —eiz—cos(x)—jsin(0)——1 
故 式 (5-76) 变 为 
X(0) 1 1 1 31zo50) 
X(1) 1] —j —1 ) | 17 d) 
- : * Ms (5-77) 
XO| ji -1 1 -1lzO 
xo J= —lo 








这 就 是 前 述 的 用 传 里 叶 变 换 来 实现 光谱 多 重 性 效益 的 例子 。 如 果 再 用 二 进 制 来 替代 复数 
运算 ， 则 可 使 传 里 叶 变 换 将 乘法 由 N? 次 降 到 次。 在 此 ，N 二 2+， 亦 即 a=lgN。 如 N= 


10242", Eli BUS 1020 ERIS ILS ， 从 而 大 大 加 快 了 传 里 叶 变换 速度 。 故 有 快速 
傅 里 时 变换 之 称 。 

对 于 光谱 化 学 来 说 ，FFT 提供 了 极其 强 有 力 的 计算 手段 。 根 据 有 关 红 外 谱 图 标准 的 要 
求 ， 标 准 谱 图 元 取 2cm 1 分 辨 率 ， 并 至 少 在 带宽 3800—450cm 1 下 摄制 ， 如 用 Michelson F 
涉 仪 摄 谱 ， 每 个 干涉 图 片 谱 需 采集 8192 个 数据 点 ，FFT 的 计算 量 仅 为 一 般 离散 全 里 叶 变 换 
(DFT) 的 1/1250。 就 是 因为 FFT， 才 能 使 FT-IR 仪器 成 为 事实 。 

在 电化 学 仪器 设计 中 ， 广 泛 应 用 计算 机 联机 处 理 数据 5044 ，FFT 是 重要 工具 之 一 。 在 化 
学 量 测 中 ， 相 关 的 频 域 是 由 直流 到 若干 MHz， 较 光谱 化 学 的 频率 低 得 多 ， 这 时 在 时 域 直 接 
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进行 离散 采样 比 光谱 化 学 量 测 容易 实现 。Smithl5 在 综述 傅 里 叶 变 换 用 于 电化 学 分 析 数 据 处 
理 时 ， 曾 展望 FFT 的 应 用 将 像 为 化 学 工作 者 最 熟悉 的 诸如 对 数据 变换 手段 一 样 普及 。 现 代 
电 分 析 化 学 技术 ， 基 本 上 是 一 种 张弛 量 测 ， 即 施加 一 定 的 扰动 后 ， 量 测 随 时 间 变 换 的 响应 。 
这 种 扰动 量 施加 在 处 于 平衡 或 准 平衡 状态 的 电化 学 池上 。 施 加 的 扰动 一 般 是 电 扰动 (电流 、 
电位 、 电 荷 ) ， 但 亦 可 能 施加 电磁 波 扰动 〈( 如 光量子 ) ， 观 测 的 响应 参量 往往 也 是 这 些 参量 。 
施加 的 扰动 与 响应 之 间 的 关系 ， 称 为 系统 的 转移 函数 。 在 动力 学 研究 中 ， 对 施加 的 脉冲 扰动 
得 到 的 暂 态 响应 ， 需 要 在 2 一 3 个 数量 级 的 时 域内 ,采用 10 一 20 种 不 同 选 定 的 扰动 (例如 不 
同 起 始 - 最 终 电 位 阶 跃 )。 如 需要 得 到 频 域 的 响应 ， 常 规 作 法 是 变换 dc 电位 进行 正弦 ac 响应 
扫描 (记录 ac 极 谱 )， 这 样 的 试验 至 少 要 用 10— 15 种 不 同 输入 频率 以 得 到 2 一 3 个 数量 级 范 
围 内 的 量 测 响应 谱 。 这 种 类 型 的 试验 比较 费时 ， 所 以 一 般 只 用 作 基 础 性 理论 研究 。 和 常规 化 学 
分 析 测 试 中 ， 只 量 测 单一 频率 ( 基 频 和 第 二 弦 波 交流 极 谱 )、 单 一 时 间 (脉冲 极 谱 在 来 滴 最 
终 时 刻 作 直流 极 谱 量 测 ) 或 某 种 时 间 积 分 响应 〈 直 流 极 谱 平均 电流 及 计时 库仑 法 )， 在 做 例 
行 测试 时 亦 不 考虑 电位 -电流 曲线 的 细节 ， 只 在 某 个 单一 电位 〈 峰 电位 ) 进行 量 测 ， 或 在 响 
应 值 不 依赖 于 电位 的 电位 区 间 内 进行 量 测 。 用 FFT 技术 可 完全 改变 这 一 状态 。 在 电化 学 分 
析 中 ， 例 如 微分 脉冲 极 谱 分 析 ， 可 逆 的 扩散 控制 电化 学 响应 通常 最 适合 用 作 分 析 测 试 ， 但 在 
分 析 实 践 中 可 能 出 现 一 系列 问题 。 例 如 ， 系 列 偏离 扩散 控制 过 程 将 影响 分 析 结 果 的 重 现 性 ; 
试 液 背景 干扰 ， 如 表面 活性 物 存 在 、 电 极 表 面 氧 化 剂 存在 等 ， 均 影响 电极 表面 状态 ， 甚 至 对 
固体 电极 表面 作 预 处 理 亦 不 能 解决 问题 。 如 能 在 分 析 过 程 中 随时 监控 这 些 动力 学 变化 因素 ， 
发 现 异 常 即 采 取 措 施 ， 可 减少 其 对 分 析 结 果 的 影响 。FFT 导 纳 响应 谱 测 定 即 能 提供 这 种 信 
息 ， 可 编制 程序 从 这 种 导 纳 谱 中 提取 有 关 电 极 过 程 动力 学 机 理 的 信息 ， 并 采取 相应 对 策 进行 
必要 的 补偿 ,或 至 少 提出 有 关 问 题 的 警告 信息 。 

进行 FFT 电化 学 测量 只 需 有 标准 的 模拟 式 电 化 学 仪器 ， 通 过 模 数 转换 与 微机 接口 运行 。 
FFT 计算 本 身 是 在 微机 上 完成 的 ， 现 在 已 有 成 套 的 含 FFT 数据 处 理 功 能 的 电化 学 测量 系 
统 ， 如 MODEI386 交流 阻抗 系统 (AC IMPENDENCE SYSTEM PAR 公司 )， 含 有 FEFT 软 
件 ， 由 用 户 给 定 基 频 、 显 示 频 率 、 数 据 周期 、AC 振幅 、DC 电位 、 电 极 表 面积 等 量 后 ， 即 
可 和 运行， 并 显示 结果 。 此 外 ， 某 些 新 型 电 分 析 技 术 ， 如 半 积 分 与 半 微 分 伏 安 法 ， 如 果 用 
FFT 将 使 仪器 设计 及 数据 处 理 大 为 简化 。 

值得 提出 的 是 ，FFT 在 Matlab 上 已 有 专门 的 指令 ， 只 需 书写 一 条 指令 : 


x —fftCy) 


即 可 得 出 结果 ， 从 而 使 其 用 于 分 析 信 和 号 处 理 时 变 得 极为 简单 。 
(四 ) 傅 里 叶 变 换 用 于 分 析 信 号 的 平滑 
由 于 傅 里 叶 变 换 可 将 时 域 或 空间 域 的 信号 转换 为 频 域 信号 ， 所 以 它 可 用 于 分 析 信 和 号 的 平 
滑 预 处 理 。 其 用 于 分 析 信和 号 平滑 处 理 的 基本 思想 十 分 简单 ， 实 因 在 化 学 量 测 中 ， 量 测 噪 声 一 
般 可 用 零 均 的 噪声 表达 。 而 零 均 的 噪声 大 多 频率 很 高 ， 而 分 析 信 和 号 一 般 在 时 域内 缘 为 低频 率 
言 号 。 所 以 ， 在 对 分 析 信 和 号 进行 时 频 域 的 传 里 叶 变换 后 只 需 将 高 频 部 分 切 去 ， 再 利用 传 里 叶 
反 变 换 将 留 下 的 低频 部 分 保留 ， 即 可 达到 平滑 去 噪 的 功效 。 下 以 具体 例子 加 以 说 明 。 设 有 原 
台 记 录 0. 05pg/g Ca 在 Os-Hg 火焰 中 测 得 的 422. 67nm 发 射 光 谱 [ 见 图 5-11 (a) ]， 图 5- 
11 (b) 是 用 传 里 叶 变换 得 到 的 实 部 ， 这 曲线 的 右 部 是 高 频 信号 ， 主 要 来 自 误 差 的 贡献 。 如 
用 一 截断 函数 (c) 〈 即 低频 部 分 为 1， 高 频 部 分 为 0)， 截 断 高 频 部 分 后 得 (d)， 继 对 COD 
做 傅 里 叶 逆 变换 ， 即 得 平滑 后 的 谱 图 〈e) 。 































































































































































































































































































































































































第 五 章 “分析 信号 处 理 方法 | 219 | 








当然 ， 截 断 函 数 的 选取 ， 即 正确 定义 高 频 与 低频 是 平滑 结果 好 坏 的 关键 ， 一 般 可 根据 实 
际 信 号 的 情况 加 以 选择 。 


| | (a) (e) 
FT | 
| FT 
(b) (c) (d) 


-— 


FT 用 于 发 射 光谱 平滑 处 理 "” 
(a) Ca 的 原始 发 射 光谱 ;(b) (GO 的 FT 变换 实 部 ，(c) 平滑 函数 ; 
(D 滤 除 噪声 后 的 传 里 叶 图 谱 ，(e) 逆 变 换 后 还 原 得 平滑 后 的 光谱 


















































(五 ) 健 里 叶 变 换 用 于 卷 积 与 解 卷 积 的 运算 
卷 积 与 解 卷 积 运算 在 电 分 析 化 学 中 有 重要 应 用 。Oldmanll-2 的 半 积 伏 安 法 等 价 于 求 
量 测 的 电流 中 41 函数 的 卷 积 ， 故 文献 中 有 关 方 法 有 时 称 为 卷 积 伏 安 法 。 卷 积 伏 安 法 的 导 纳 
测定 均 是 电化 学 数据 处 理 中 应 用 RET 成 功 的 实例 。 
传 里 叶 变换 用 于 卷 积 的 解 卷 积 运算 主要 基于 以 下 的 卷 积 定理 : 

fr) *hCy) &»FQ(Qu) Hu) (5-78) 


式 中 , Fu) 5 Hu) 是 对 应 于 f Ox) 5 h Cy) 的 傅 里 时 变换 。 
由 此 定理 ， 可 利用 下 述 计算 步骤 由 原始 波谱 f (x) 与 变 宽 函数 (zx) 算出 变 宽 的 波谱 
( 卷 积 运算 ) : 





















































Pe e ee 


FT 
h(x) — H Cu) 
H (u)F (u) —-GCGO 


G Cu) an 





go) 

RZ, FGOO-GGO/HCG)O . Wo Fu) 3f; fü HB np dE a) ， 即 解 卷 积 方法 
可 由 测 得 的 ( 变 宽 的 ) 光谱 g (x) 与 变 宽 孔 数 h(x) ， 还 原 出 原始 波谱 f(x) 来 ( 解 卷 积 运 
F): 





ET 
g(x) —>G(u) 





bod m 


G Cu) 


Pour a 
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逆 FT 
F(u) E 





fG) 
这 种 算法 亦 称 逆 滤 波 (inverse filtering)。 这 里 完全 忽略 了 误差 的 影响 ， 实 际 量 测 的 g(x) 除 
狭 颖 宽度 影响 外 ， 还 包括 了 量 测 误差 (噪声 ) n(x): 
ga) =f) Xh) -- nG) 
考虑 到 侍 里 叶 变 换 的 加 合 性 , g(x) 的 变换 G(u) 为 : 
Gu) —F GO X H GO +N (u) 














Gu) Nu) 
HG) tH 








N (u) 


FG) —FGO t gr 





Fu) 是 未 知 的 原始 波谱 的 真实 函数 f(x) 的 傅 里 叶 变 换 ， 而 下 (u) 是 其 估计 值 ， 实 际 运用 
卷 积 定理 处 理 分 析 信和 号 时 ， 应 考虑 误差 。 

值得 提出 的 是 ， 作 解 卷 积 运算 的 必要 条 件 是 先 确定 变 宽 函数 h(x) ， 一 般 可 取 一 很 窗 的 
波谱 线 [至 多 为 h(x) 的 1/10 宽 ]， 通 过 实验 ， 确 定 h(x) 函数 。 此 算法 可 用 于 对 两 个 部 分 
重合 峰 的 处 理 ， 还 原 出 的 原始 峰 形 分 辨 情况 较 变 宽 后 记录 的 谱 图 有 显著 改善 ， 这 是 一 种 有 用 
的 重生 波谱 分 辨 技术 OLE 5-12) 。 


、 小 波多 分 辨 变换 法 及 其 用 于 分 析 信 号 处 理 


如 前 一 小 节 所 述 ， 传 里 叶 变换 的 本 质 在 于 它 通 过 三 角 函 数 将 时 域 信号 变换 成 频 域 信和 号， 
从 而 得 到 一 系列 有 用 信息 ， 在 平滑 、 波 谱 多 重 性 效益 及 波谱 量 测 方面 得 到 了 极其 广泛 的 应 
用 。 然 而 ， 傅 里 叶 变换 也 因为 这 一 点 而 使 其 同样 具有 自己 的 局 限 性 。 正 如 著名 数学 家 Meyer 
出 的 那样 :“ 当 你 记录 了 一 小 时 信号 ， 如 果 在 最 后 五 分 钟 出 现 了 一 些 错 误 ， 那么 这 些 错误 
就 将 殊 及 整个 傅 里 叶 变 换 谱 。” 因 为 傅 里 叶 变 换 则 在 将 整个 时 域 信号 变换 为 频 域 信号 ， 而 失 
去 了 时 域 中 的 分 辨 率 。 为 此 出 现 了 窗口 傅 里 叶 变 换 (WFT) 或 短 时 傅 里 叶 变换 (CSTFT) : 





















































WET, G, P =| coh — rendi (5-79) 





其 物理 意义 如 图 5-13 HR. MERTI, BREEF 〈 谱 ) 不 能 明显 表示 频 域 分 量 的 
时 间 局 域 化 ， 但 这 样 一 种 局 域 化 可 通过 对 信号 x (zt) 适当 预 加 窗 得 到 。 窗 口传 里 叶 变换 可 视 
为 一 局 部 谱 。 也 就 是 说 ， 信 号 x (7) 在 时 间 志 的 窗口 傅 里 时 变换 就 是 信号 x G0 乘 上 一 个 以 x 
为 中 心 的 “分 析 窗 ”h(t 一 +") 所 做 的 傅 里 叶 变换 。z G0 称 为 基 信 号 ， 由 于 乘 上 一 个 相当 短 的 
窗口 (7 一 1') ， 等 价 于 取出 信号 在 分 析 点 :一刀 附近 的 一 个 切片 。 所 以 ， 窗 口 傅 里 叶 变 换 直 
接 是 信号 a) 在 “分 析 时 间 ”z 附近 的 “局 部 谱 ”。 
然而 ， 尽 管 采用 窗口 依 里 叶 变 换 可 解决 一 些 问题 ， 但 仍 不 是 一 种 十 分 令 人 满意 的 方法 。 
实 因 窗 口 愈 小 时 ,得 到 时 域 突变 信和 号 〈 如 尖峰 或 非 连 续 信 号 ) 的 能 力 愈 强 ， 但 却 对 该 区 的 低 
频 信号 无 法 反应 ; 反之 ， 窗 口 太 大 时 ， 突 变 或 非 连续 信和 号 就 会 对 整个 窗口 的 传 里 叶 变换 谱 产 
影响 。 图 5-14 就 示 出 了 一 个 这 样 的 例子 。 这 说 明 ， 寻 求 一 个 全 新 的 信号 处 理 方法 看 来 是 
很 有 必要 的 。 
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A Le hai I | n L 
0 20 40 60 80 100120140 160 180 200 0.020 40 60 80 100120 140 160 180 200 
信号 通道 言 号 通道 
(a) (b) 














O20 40 60 80 100 120 140 160 180 200 
信号 通道 
(c) 
1S gnrapidRc d HT2SBEeS22fs* 
虚线 峰 : 测 得 的 峰 ， gue 去 卷 积 复原 的 峰 ; 靠近 横 轴 的 虚线 : 复原 的 峰 与 真实 峰 形 之 差 
H 函数 与 信号 半 宽 比 为 : (a)、(b) 1.25; CO) 1.0 





h(t-t) 





| 


窗口 传 里 叶 变 换 的 示意 图 








小 波 变 换 就 是 这 样 一 种 全 新 信号 处 理 的 工具 ， 可 以 说 是 近年 来 在 应 用 数学 领域 中 最 独 具 
魅力 的 成 果 。 小 波 变 换 的 概念 最 早 是 由 法 国 地 球 物理 学 家 Morlet 于 20 世纪 80 年 代 初 作为 
一 种 信号 分 析 的 数学 工具 而 提出 ， 很 快 就 引起 应 用 数学 界 的 高 度 关注 ， 并 迅速 在 信号 和 网 像 
分 析 、 地 球 物 理 信 号 分 析 、 计 算 机 视觉 与 编码 、 语 言 的 合成 与 分 析 、 信 号 的 奇异 性 检测 与 谱 
估计 ， 甚 至 在 分 形 与 混沌 理论 中 都 获得 广泛 的 应 用 站。 在 小 波 变换 中 ， 人 们 以 不 同 的 “ 标 
度 ” 和 “分 辩 率 ”同时 在 时 域 〈 或 空间 域 ) 和 频 域 中 观察 信号 ， 这 种 观察 信号 的 多 分 辩 或 多 
标 度 的 方法 是 小 波 变 换 的 基本 点 ， 其 目的 就 在 于 “ 既 要 看 到 森林 (信号 的 概貌 )， 又 要 看 到 
树木 (信号 的 细节 )。” 
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(a) 
































频率 /Hz 





不 同 宽度 的 窗口 傅 里 叶 变 换 与 小 波 变换 结果 的 比较 
(a) 在 信号 接收 过 程 中 在 箭头 处 出 现 两 个 尖锐 噪声 ，(b) 窗口 传 里 叶 变 换 的 结果 〈 左 窗口 宽 度 太 大 时 ， 

在 频 域 方 向 的 分 辩 结 果 很 好 ， 但 在 时 域 方向 却 无 法 分 辨 ， 中， 窗口 宽度 中 等 时 ， 在 频 域 方向 的 分 辩 结果 变 差 ， 

但 在 时 域 方向 仍 无 法 分 辨 ， 右 : 窗口 宽度 很 小 时 ， 在 频 域 方 向 的 分 辩 结 果 变 得 很 差 ， 但 时 域 方向 已 可 分 辨 )， 

CO 小 波 变换 结果 〈 此 时 在 频 域 方向 的 分 辩 结果 可 以 接受 ， 时 域 方向 的 分 辩 结 果 很 好 

小 波 变换 最 早 是 由 Bos 等 引入 分 析 化 学 [522 ， 主 要 用 于 估计 流动 注射 分 析 峰 之 强度 及 
处 理 红 外 光谱 数据 。 目 前 ， 此 法 在 化 学 计量 学 界 已 引起 广泛 的 关注 ， 有 关 小 波 应 用 的 文献 逐 
年 增多 22] ， 在 我 国有 关 小 波 变换 在 分 析 化 学 中 的 应 用 研究 也 得 到 了 相当 快 的 发 展 [3~231 。 
本 小 节 将 在 介绍 基本 概念 和 算法 的 基础 上 ， 对 小 波 变换 在 分 析 化 学 应 用 中 的 几 个 方面 给 出 必 
要 讨论 。 

小 波 变换 的 基本 定义 为 : 































































































WT: ab Lp aereo (5-80) 
Ja c a 


PLE 





从 式 (5-80) 可 以 看 出 ， 它 与 窗口 健 里 叶 变 换 





WFT.G. f) = 六 (CD 六 人 — eirf dt 





很 相似 ， 不 同 之 点 只 在 于 小 波 变 换 少 了 一 项 三 角 函 数 变换 项 (e 2 )， 但 增加 了 一 个 伸缩 
参数 a 。 对 于 大 的 伸缩 参数 a， 基 函数 变 成 展 宽 的 原 像 小 波 ， 是 一 个 低频 函数 ; 而 对 于 小 的 
a， 基 渔 数 则 成 为 缩小 的 小 波 ， 它 是 一 个 短 的 高 频 函 数 。 正 是 这 一 伸缩 参数 ， 使 小 波 具 有 多 
分 辨 的 性 质 。 小 波 变换 的 男 一 参数 为 平移 参数 5， 这 就 使 它 也 同样 具有 前 述 窗 口 侍 里 叶 变 换 
可 得 到 时 域 (或 空间 域 ;“ 局 部 谱 ” 的 特性 。 

另外， 小 波 变 换 不 像 侍 里 叶 变 换 只 采用 三 角 隐 数 为 其 基底 函数 ， 其 基 水 数 h(.) 是 可 改 
变 而 且 可 以 是 相互 正 交 的 。 不 同 的 基 水 数 h(.，) 对 应 于 不 同 的 小 波 变 换 ， 最 著名 和 常用 的 小 
HERAA Haar 基 、Daubechies 基 、Coiflet 基 和 B- 样 条 基 等 。 正 是 因为 有 了 这 样 一 些 特 
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点 ， 小 波 变换 成 为 了 一 种 比 传 里 叶 变 换 更 灵活 和 更 多 样 化 的 信号 处 理 的 数学 新 工具 。 
(一 ) 离散 小 波 变换 
在 分 析 信 号 的 小 波 变换 处 理 中 ， 一般 实 际 使 用 的 是 离散 小 波 变换 ， 如 将 前 述 的 小 波 变 换 

定义 式 中 的 小 波 基 函 数 单独 列 出 ， 则 为 

ha, o) — (a V? )h [G — 0)/a] (5-81) 

继而 将 其 平移 和 伸缩 或 尺度 参数 离散 化 ， 即 


a —ai 












































b — kaibo GR. j 为 正 整数 ) 


WT.G. k) zaz! [^ h (ao? t — kbo)x (t)dt (5-82) 


特别 有 实用 意义 的 是 ao 一 2 和 wo 二 1 时 的 小 波 函 数 ， 使 得 
ha, (t) 27378 (27 3t—k) (5-83) 


式 中 , j, k 为 任意 整数 。 注 意 到 ， 在 此 7 是 可 由 负 无 穷 到 正 无 穷 的 整数 ， 故 式 (5-83) 
如 写成 








ha, o) —277? Rh C231 — k) (5-84) 
其 意义 是 完全 没 变 的 。 
如 果 有 一 离散 信号 zz 人 ) =r; (i 二 1,…,n) ， 在 不 同 的 j,k 下 ， 其 离散 小 波 变换 也 就 
相当 于 




















WT Gok) = > 2h Ot; — kx; 


i=} 





— (x RO t — b) (5-85) 


AP, C, 0 表示 内 积 ， 也 就 是 投影 ， 式 (5-850 说 明 小 波 变换 就 相当 于 一 种 在 小 波 基 
函数 上 的 投影 变换 ， 同 时 注意 到 ,不同 的 j,k 代表 不 同 的 分 辩 率 〈 尺 度 ) 和 不 同时 域 OP 
移 )。 而 且 ， 构 成 不 同 的 小 波 基 一 般 要 求 相 互 正 交 ， 即 


hjk sh aT = Ojm Opn 
“表示 内 积 入 ， 定义 为 


xr y) =æ (Dy (5-86a) 


(zy) = Px) y(t,) (5-86b) 


6jm JJ Kronecker 8 Zt, Hl 6j% —1(j =m) X 05, —0Cj Am). XWH, 不 同 的 j,k 小 波 基 
函数 是 正 交 的 。 如 果 采 用 不 同 的 分 辩 率 的 时 空 局 域 ， 可 组 成 一 组 正 交 基 ， 对 任意 信号 进行 小 
波 变换 ， 就 相当 于 对 该 信号 不 同 分 辩 率 的 局 部 时 〈 空 》 域 进行 投影 ， 可 得 到 不 同 分 辨 率 的 局 
部 时 《〈 空 》 域 的 变换 结果 ， 这 下 是 小 流 变 换 有 的 特殊 之 处 。 图 5-15 给 出 了 不 同 j,k& 下 Dau- 
bechies 小 波 的 例子 。 从 此 图 可 以 看 出 ,小 波 孔 数 正 是 通过 不 同 的 7 ,k 来 调节 不 同 的 局 部 时 
域 和 不 同 的 分 辩 率 的 。 
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(a) (b) 
不 同 局 部 时 域 和 分 辨 率 的 Daubechies 小 波 
(a) 不 同 局 部 时 域 的 (平移 ); (b) 不 同 分 辩 率 的 (尺度 ) 





(CO 多 分 辩 分 析 

如 前 所 述 小 波 变 换 的 最 显著 特性 就 是 它 的 多 分 辩 竺 点 。 用 多 分 辨 画 数 来 逼近 任 一 函数 的 
基本 概念 是 由 Meyer 和 Mallat 提出 的 [23,3] ， 这 相当 于 用 显微镜 来 观察 一 个 微生物 ， 如 果 想 
要 该 微生物 的 全 貌 ， 则 需 将 其 调 至 较 大 视野 (低频 )， 而 不 在 意 该 微生物 各 部 位 的 细节 ; 反 
之 ， 如 果 想 了 解 某 一 局 部 部 位 ， 则 需 聚 焦 以 高 分 辩 来 观察 细节 。 人 小 波多 分 辩 分 析 正 是 根据 这 
一 基本 思路 来 进行 设计 的 。 它 要 求 可 将 被 解析 的 信号 投影 至 一 系列 相互 包含 的 空间 之 中 ， 





























CY Cv Cv Cv CCL? (5-87) 
式 中 , L? 表示 平方 可 积 的 实数 空间 。 
这 暗示 
v——(0) v=L? 
因为 上 述 空间 的 定义 ， 上 述 空间 自然 需 满 足下 述 尺度 条 件 : 
ha) Ev eh QD Evy (5-88) 

















Au ARE FH Bl T Er HNE E R RIRIA (27^ n (271 — R0) ， 则 有 


h) = P ya, AZ At — k) (5-89) 
k 





式 (5-89) 说 明 , h GO {构成 v; WREEK WER hA — k) R v REE 
函数 》 线 性 组 合 而 成 。 在 此 户 (z) 称 为 尺度 函数 或 尺度 滤波 、 尺 度 向 量 ，a4 则 称 为 尺度 函数 
系数 。 男 外 ， 在 多 分 辨 分 析 中 ， 为 表示 不 同 尺 度 空 间 中 的 区 别 ， 还 定义 了 男 一 类 小 波 函 数 
ea 0) ， 并 且 要 求 它 与 同 尺度 的 尺度 函数 正 交 ， 即 











Tm G), hj (2) = foz GORji (1)dt 一 0 (5-90) 


XB. L, j, k 都 是 整数 。 
因为 woC viC ur…C 工 ,所 以 ， 可 以 这 样 来 定义 小 波 函 数 的 伸展 空间 , w; Cj — 0) 


v; =v Pwo (5-91) 
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式 中 ， 甸 表示 正 交 补 (参见 第 十 一 章 )。 根 据 式 (5-900 M 〈5-91)， 还 有 
v; =v Pw Pw, =v Pw; (5-92) 
L? =v =v, Dw, Pw Pw, (5-93) 
据 此 ， 小 波 函 数 可 由 式 (5-94) 定义 


eG) = Pb, 2 h( —k) (5-94) 
k 


AF, 0, 称 为 小 波 系 数 。 图 5-16 给 出 了 尺度 函数 与 小 波 矢量 空间 的 关系 。 





w |L wi wo vo Y4 D vn D v D v 


尺度 函数 与 小 波 函 数 空间 关系 示意 图 

















为 帮助 理解 ， 下 面 将 以 Haar 小 波 为 例 来 具体 说 明 小 波多 分 辨 分 析 中 各 类 空间 的 具体 
组 成 [31] 。 
首先 ，Haar JUN EE pg Zion] sg N.N 


r= 1 0< < 1 
0 ”其 他 
再 根据 
h) = P ya 2 ht — k) 
k 
及 VG) = 2,62 hr — k) 














可 组 成 不 同 的 斥 度 函数 与 小 波 函 数 空间 。 在 此 ， 需 指出 的 是 ， 对 于 Haar 小 波 ， 其 尺度 函数 
系数 a, 只 需 取 两 个 : ao 一 1/V2 ; al 一 1/V2 而 小 波 郴 数 系数 br 也 只 需 取 两 个 : bo 一 1/V2 ， 


和 1 二 一 1/V2 。 所 以 ， 如 果 定 义 上 面 给 出 的 Haar 小 波 尺度 函数 组 成 的 是 w 空间 的 话 ， 则 v 
空间 的 尺度 函数 为 

















hi(t)=ao V2ho 21) dar V2ho (2t —1) 
— O/422ho QD O//2)42ho Gr —1) 
—ho((2t) g-ho C2t — 1D 
1 0<:<1/2 
E 其 他 
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而 小 波 函 数 po 
1 il 
Vo G)— ho C AER 2—1) 


—ho(2t) —hoC2t —1) 
1 0<:<1/2 
—41—1 1/2«t«1 
o 其 他 
由 此 类 推 ， 可 求 出 v,。，w1 各 空间 的 Haar 小 波 的 尺度 基 荫 数 和 小 波 基 函 数 。Haar 小 波 
基 的 vo 与 vi zx IHIAEPR IUS wo 与 w, Ba I AE K 5-17; 
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子 空间 w EE 
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=  d—— 
EE -— 

am, 子 空间 w 


(b) 
Haar 小 波 变换 不 同 尺度 与 小 波 空间 基 函 数 图 像 








《三 ) 多 分 辩 信 号 分 解 算法 
前 面 两 小 节 给 出 了 小 波 变换 中 最 重要 的 基本 概念 ， 但 实际 上 ， 小 波 变换 的 应 用 都 是 通过 
Mallatc 提 出 的 多 分 辩 信 号 分 解 (MRSD) 或 塔 式 算法 来 实现 的 ， 其 算法 在 小 波 变换 中 的 
地 位 就 与 快速 傅 里 叶 变 换 (FFT) 在 傅 里 时 变换 中 的 地 位 一 样 重要 。 如 果 量 测 所 得 的 离散 分 
析 信 号 可 由 cc) —[ eO e O pen O RRR, RAPER O 表示 分 辨 为 零 ， 即 未 进行 
任何 小 波 变换 的 原始 数据 ; 为 量 测 点 数 ， 不 失 一 般 性 ， 可 假设 N=2? Cp YEWO. 则 


























J 
cG;)0 =E cf hj, a 2 Sd? 2i o, a 


j=1 k 


= Dep Hh -DA SUPU —k) (5-95) 
j=1 k 
RF, J 表示 最 高 分 辨 率 ; 1G —1. N) 表示 在 量 测 采样 时 间 点 ; ci di Goles 
JO 分 别 表示 在 了 水 平分 辩 率 下 的 小 波 变换 的 尺度 函数 和 小 波 函数 的 系数 ，hjs pp 则 是 对 
应 的 尺度 基 函 数 和 小 波 函 数 。 
可 以 证 明 ， 对 于 不 同 分 辨 水 平 的 尺度 函数 系数 cw ”和 小 波 函 数 系数 dj”， 可 由 递归 式 
(5-96) 算出 [33] ， 
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gi ua qnr (5-96a) 


4 —42 Me Dou. 2k (5-96b) 





AP, qu B gu Ar oS IG UE CSS QCQ — (q,70 和 高 通 滤波 器 CCG — (eg 20 AR PE TP B 
元 素 ， 它 们 应 具有 如 下 性 质 : 





gh ==] (5-97) 
而 且 Sor 一 V2 ; 
k 
De =0 
k 

















值得 指出 的 是 ， 上 述 这 两 种 系数 中 ，g 是 主要 的 ， 只 要 qr 确定 了 ，g 也 就 唯一 确定 了 。 
MEH q, 的 取 法 有 多 种 多 样 ， 不 同 的 小 波 基 范 数 就 有 不 同 的 gq ， 最 简单 的 就 要 算 Haar 小 
波 了 。 











1 
Wm 
|. 
qi 二 一 
* wm 
1 
gio= (1gig 
J/2 
1 
g1 一 (1)iqg1-1 王 一 g1 王 一 一 
V2 





得 到 g 和 gx ， 利 用 前 述 递 归 式 (5-96) 即 可 算出 各 个 分 辩 率 下 的 尺度 函数 和 小 波 函 数 的 系 
数 cH Wai 来 ,小 波多 分 辩 信 号 分 解 也 就 逐步 进行 了 。 所 以 ， 如 何 得 到 不 同 的 小 波 变换 
的 g;， 是 小 波多 分 辨 信号 分 解 的 关键 所 在 。 有 关 如 何 确 定 gq 的 方法 ， 读 者 可 参阅 文 
献 [19，33j。 

下 面 给 出 多 分 辨 信号 分 解 “MRSD) 的 具体 矩阵 算法 。 

1. 低 通 滤波 矩阵 8 与 高 通 滤波 矩阵 G 的 构造 

不 同 的 小 波 函 数 Can Haar 小 波 、Daubechies 小 波 、Coiflet 小 波 等 ) EJ) qu. mi EL 
同一 小 波 函 数 还 有 不 同 长 度 工 (一 基 十 1,…,0,1,…,)。 如 Daubechies 小 波 就 有 长 度 为 2， 
4，6，8，… 多 种 尺度 函数 的 系数 供 选 择 ， 一 旦 确定 了 长 度 L， 就 可 根据 下 式 来 构造 CO 阵 和 
G 阵 : 




















Qi; = qj;—2i (5-98a) 
Gi =gj_2 (5-98b) 


MU L=2 (Dsxs 二 D4)， 分析 信 号 长 度 为 16 H O 阵 和 G 阵 的 构造 为 例 来 加 以 具体 说 明 。 
从 式 (5-98) 可 以 看 出 8 EMG 阵 均 为 (8X16) MERE. wS 


| 
G J1i6x16 
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YT. 
[qa go a d» 0 0 0 | 
0 0 q-i1 do Q 42 
0 0 0 0 q- Qo qı q2 
0 0 0 0 0 0 q- do qı 42 0 
i= hd q1 4 0 0 0 q-i 4o 
G 8—1 8o 81 82 0 0 0 
0 0 g-i 8o 81 82 0 0 0 0 
0 0 0 0 g-i1 go 81 82»; 0 0 0 
0 0 0 0 0 0 g- go gı 8» 0 0 
g] g? 0 0 0 0 8-1 £o 
(5-99) 

















在 构造 这 一 矩阵 时 ， 如 果 Qi 二 gq; 2; 得 到 的 (j 一 2i) 超过 ax 下 标 k 的 范围 时 就 都 置 为 0， 
a 2, WRA qois qos qi» o AAE. T2454 k>2 或 二 一 1 时 ， 

DEGETE. Dh EEK fuc 的 最 后 一 列 ， 即 ;一 8,， j—1. 2H]. Qi =q: =q- 
dl ic HER IB qas qos qi» qo UTR, dd "amid qi: Q23À giu» go 
这 是 为 了 保持 矩阵 8 和 6G 的 正 交 性 ， 属 于 特例 。 

















rr=[8 [Q' G'] —I (5-100) 
ABE Q X G 的 正 交 性 可 使 得 MRSD 唯一 。 
2. 信号 逐步 分 解 
信和 号 逐步 分 解 ， 以 得 到 不 同 分 辨 率 及 不 同 长 度 的 分 解 信 号 矢量 
c, —Qc, 
dı —Gc, 
€; —Q:c, —Q10c, 


d» —Gic; —6G:10c, 


Cj —0Q;j-::7Q:1Qc, 
dj; —Gj-i::Q10Qc, 


一 分 解 过 程 可 由 图 5-18 Tassen Bis 
RES 说 明 可 以 看 出 ， 每 经 过 一 次 分 解 ， 原 信号 的 分 解 水 平 增加 1， 而 信号 矢量 的 长 度 
减 半 ， 所 以 一 般 要 求 原 信 号 矢量 的 长 度 为 N —2^ ， 当 信号 矢量 的 长 度 不 等 于 2” 时 ,或 丢弃 
pones Eu A 或 增补 一 些 量 测 点 来 满足 这 一 要 求 。 男 外 一 般 说 来 ,由 
阵 投影 所 得 的 ce 中 一 般 包 含 着 原 信号 的 低频 信息 ， 而 由 G 阵 投影 得 到 的 d 中 一 般 包含 原 信号 
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多 分 辨 信号 分 解 算法 ( 塔 式 算法 ) 示意 图 






























































的 一 些 高 频 细 节 。 值 得 指出 的 是 ，Oi 阵 行 列 数 相对 于 8 阵 缩小 了 一 半 ， 但 构成 原则 仍 同 
Q 阵 。 
3. 信号 的 逐步 复原 
因为 0+ 三 05，G+ 二 G+， 所 以 得 到 的 多 分 辨 信号 分 解 撩 量 可 很 容易 还 原 。 即 
Qji-:c; —0Qj 1Q;-1:7Q:0c, 
c;—5i7—0j-::70Q10c, 
Gj-1id; —Gj ,Gj-1*7Q:10c, 
d;——G;-s:Q1Qc, 
KHO 及 G' 就 等 于 0+ 和 CG+ ， 这 就 为 分 解 信号 的 复原 带 来 很 大 的 方便 。 小 波 变 换 就 是 
利用 这 一 特性 ， 而 具有 很 强 的 去 噪 功能 。 
(m) 几 个 常用 小 波 基 尺 度 因 数 与 小波 闫 数 系数 表 
如 前 所 述 Mh. 对 于 不 同 的 小 波 基 ， 都 有 不 同 的 dk Mg, Ck 5L, 0, L), 而 这 些 


ird 数 和 小 波 函 数 的 系数 是 构成 多 分 辨 信号 分 解 算 法 的 关键 。 为 方便 读者 ， 本 小 节 将 列 出 
常用 的 3 个 小 波 基 即 Haar 小 波 、Daubechies 小 波 和 Coiflet 小 波 函 数 的 系数 表 ， 以 供 读者 








使 用 GR 5-9、 表 5-10)。 


Daubechies 尺度 及 小 波 函 数 系 数 表 
Daubechies (L —4) 





k qx Bk 

—$ . 23037781330890 0. 01059741078507 

—2 . 71484657055292 0. 03288301166689 

=i . 63088076792986 — 0. 03084138183556 
0 一 0. 02798376941686 一 0.18703481171909 
I 一 0. 18703481171909 一 0.02798376941686 
2 一 0. 03084138183556 一 0.63088076792986 
3 . 03288301166689 一 0.71484657055292 
4 一 0. 01509740178507 一 0.23037781330890 








DaubechiesCL — 3) 





k ak Sk 

—2 0. 33267055295008 . 03522629188571 

= 0. 80689150931109 . 08544127388203 
0 0. 45987750211849 . 13501102001025 
1 —0. 13501102001025 . 45987750211849 
2 — 0. 08544127388203 . 80689150931109 
3 0. 03522629188571 . 33267055295008 
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Daubechies(C L —2) 


Daubechies( L — 1) (或 Haar) 





k qk £x k dk gx 
=f 0. 48292691314453 0. 12940952255126 
0 0. 70710678118655 0. 70710678118655 
0 0. 83651630373781 0. 22414386804201 
1 0. 22414386804201 — 0. 83651630373781 
1 0. 70710678118655 — 0. 70710678118655 
2 — 0. 12940952255126 0. 48292691314453 





Coiflet 尺度 及 小 波 函 数 系 数 表 
Coiflet(L = 3) 


Coiflet(L =4) 












































天 dk £k k dx gk 
I 二 全 和 和 OBE ae 3 0.04687500000000 | —0. 01565572813546 
: o —2 | —0.02116013576461 | —0. 07273261951285 
一 ji 0. 33789766245781 | 一 0.07273261951285 m 二 0 14062200000000: | .0.38186lS4686420 
0 0. 85257202021226 | 一 0.38486484686420 0 0. 43848040729385 0. 38486484686420 
1 0. 38486484686420 0. 85257202021226 0. 38486484686420 0. 43848040729385 
rund | 2 0. 38486484686420 | —0. 14062500000000 
2 | —0. 07273261951285 | —0. 33789766245781 3 | —0. 07273261951285 0. 02116013576461 
3 | —0. 01565572813546 | —0. 07273261951285 4 0. 01565572813546 0. 04687500000000 
Coiflet(L = 6) 
k ak £k k [r^ £k 
一 5 0. 16387336464 0. 000720549446 1 — 0. 076488599078 0. 417005184423 
一 4 一 0. 041464936781 一 0.001823208870 2 一 0. 059434418646 一 0. 812723635449 
一 3 一 0. 067372554722 一 0.005611434819 3 0. 0236680171946 0. 386110066823 
一 2 0. 386110066823 0. 0236680171946 4 0. 005611434819 0. 067372554722 
一 1 0. 812723635449 0. 059434418646 5 — 0. 001823208870 — 0. 041464936781 
0 0. 417005184423 — 0. 076488599078 6 — 0. 000720549446 — 0. 16387336464 
(五 ) 小 波 变 换 在 分 析 信 号 处 理 中 的 应 用 















































因为 小 波 变换 实际 上 是 一 种 比 傅 里 叶 变 换 更 有 力 的 信号 处 理工 具 ， 所 以 ， 近 年 来 ， 在 分 
析 化 学 中 得 到 了 非常 广泛 的 应 用 ， 尤 其 是 近年 来 ， 应 用 面 越 来 越 广 ， 是 一 个 很 值得 引起 关注 
的 研究 领域 9 ， 下 面 将 主要 介绍 几 种 已 取得 成 功 应 用 的 方法 。 

1. 小 波 变换 用 于 数据 压缩 

人 MRSD) 可 容易 看 出 ， 每 经 过 一 次 变换 ， 分 析 信 号 的 长 度 
就 被 压缩 一 半 ， 经 过 几 次 变换 ， 信 和 号 就 可 以 2 的 指数 速率 往 下 降 ， 而且， 采用 逐步 复原 的 策 
略 ， 只 需 保留 @ 阵 和 G 阵 ， 又 可 很 容易 地 将 分 析 量 测 言 号 复原 ， 这 对 于 有 些 采 样 点 较 多 的 
分 析 信 号 ， 如 红外 光谱 、 核 磁 共 振 谱 等 的 保存 ， 传 输 以 及 建立 较 大 量 测 波谱 数据 库 是 非常 有 
利 的 。 逐 步 复原 过 程 就 是 一 个 简单 的 矩阵 乘法 过 程 ， 恢 复 速度 很 快 ， 所 以 这 一 压缩 技术 可 望 
在 分 析 化 学 中 ， 特 别 是 在 分 析 化 学 波谱 的 构建 中 起 到 非常 重要 的 作用 。 将 小 波 交 换 用 于 紫外 
光谱 压缩 就 是 一 个 很 成 功 的 例子 39 。 

另外 ， 由 于 近年 来 联 用 技术 的 发 展 相当 快 ， 往 往 一 个 样本 就 产生 100 万 个 数据 点 ， 这 就 
为 从 中 提取 信息 和 进行 运算 带 来 很 多 困难 ， 将 小 波 变换 的 压缩 功能 用 于 这 些 类 数据 的 解析 
之 上 ， 也 是 一 个 很 成 功 的 例子 [355 ， 实 因 经 小 波 压缩 后 的 数据 ， 可 得 主要 信息 ， 而 使 数据 
量 成 倍 减少 。 

2. 小 波 变 换 用 于 分 析 信 号 的 背景 扣除 

如 前 所 述 ， 小 波 变换 的 一 个 最 大 特点 就 是 靠 两 个 矩阵 即 低 通 滤波 和 矩阵 C 和 高 通 
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阵 G 对 分 析 信号 进行 不 同 分 辩 率 的 投影 运算 ， 一 般 说 来 由 低 通 滤波 和 矩阵 投影 得 到 的 为 不 同 
分 辩 率 的 低频 信号 ， 由 高通 滤波 抢 阵 投影 得 到 的 为 不 同 分 辩 率 的 高 频 信 号 细节 ， 而 由 仪器 分 
析 所 得 的 分 析 量 测 信号 背景 漂移 一 般 可 由 最 低频 信和 号 给 出 ， 借 助 分 析 人 员 的 工作 经 验 ， 不同 
分 辨 率 所 得 之 低频 信号 往往 可 很 好 地 将 背景 与 纯 信 号 分 离 。 文 献 [37] 将 此 技术 用 于 二 维 联 
用 色谱 的 化 学 秩 佑 计 间 题 ( 见 第 五 草 )。 将 此 法 用 于 一 维 色谱 的 背景 扣除 亦 是 一 个 很 好 的 例 
了 

3. 小 波 变 换 用 于 平滑 除 品 

RIR (或 平滑 〉 在 分 析 信 号 处 理 中 是 一 个 相当 重要 的 任务 ， 寻 求 一 种 很 好 的 除 噪 方法 ， 
一 直 是 化 学 计量 学 研究 的 问题 。 小 波多 分 辨 信号 分 解 算法 (MRSD) JA T ERMEOU,. E 
一 般 可 通过 对 高 通 滤波 矩阵 的 投影 信号 (或 称 小 波 域 ， 取 阅 值 的 方法 来 进行 。 数 学 家 们 在 小 
波 分 析 的 这 一 领域 中 做 了 不 少 工作 ?~ 引 。 在 此 ， 仅 给 出 一 例 来 形象 说 明 小 波 变换 如 何 利用 
取 阅 值 来 进行 除 品 的 过 程 。 

5-19 给 出 的 是 一 个 用 小 波 来 对 核磁 共振 谱 进 行 除 噪 的 例子 。 










































































0 500 1000 0 500 1000 
时 域 小 波 域 
(a) (b) 
200 60 
40 
100- 
E: E 
Ed Hi 20 
x tn 
Id 0 jdn 0 
E 1 -20 
1005 500 1000 0 500 1000 
小 波 域 时 域 
(c) (d) 


小 波 变换 用 于 核磁 共振 谱 除 噪 的 一 个 例子 
CO 原始 核磁 共振 谱 ; (bo 小 波 变换 的 细节 矢量 ; 
CO 去 掉 低 于 阔 值 以 下 元 素 的 细节 矢量 ; (D 去 噪 后 的 重 构 核 磁 共 振 谱 
































从 这 例子 可 以 看 出 ， 小 波 用 于 除 噪 似乎 与 传 里 叶 变 换 除 噪 无 本 质 区 别 ， 都 是 去 掉 变 换 谱 
中 的 一 些 值 ， 傅 里 叶 变换 去 掉 的 是 高 频 部 分 。 然 而 两 者 除 噪 的 原理 是 很 不 相同 的 ， 值 得 提出 
的 是 ， 小 波 变换 除 噪 后 是 有 可 能 保存 高 频 信号 的 ， 用 于 高 频 信 号 除 噪 要 优 于 传 里 叶 变换 。 

4. 小 波 变 换 在 分 析 化 学 其 他 方面 的 应 用 

实际 小 波 变 换 还 可 用 于 其 他 方面 ， 如 图 像 处 理 "4 ， 因 小 波多 分 辩 分 析 可 容易 拓 广 至 
二 维 ， 具 有 很 大 的 灵活 性 。 另 外 ， 小 波多 分 辨 信号 分 解 CMRSDO, "T [gl p h fim B9 4 
( 低 通 部 分 ) 和 细节 〈 高 通 投影 部 分 )， 而 且 信号 的 压缩 又 是 同时 进行 的 ， 所 以 可 以 预料 ， 它 
可 在 模式 识别 的 特征 抽取 (参见 第 七 章 ) 中 得 到 广泛 而 有 趣 的 应 用 [~ 。 由 于 小 波 变 换 本 
身 还 在 不 断 发 展 ， 可 以 预计 ， 它 将 在 分 析 信 号 处 理 中 得 到 更 加 广泛 而 又 深入 的 应 用 。 
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第 四 节 分 析 信 号 的 背景 扣除 方法 


由 于 分 析 仪 器 受 多 种 外 界 因素 的 影响 ， 分 析 信 和 号 的 背景 漂移 在 分 析 过 程 中 几乎 是 不 可 避 
免 的 。 由 于 在 中 药 分 析 普 裔 使 用 中 药 色 谱 指 纹 图 谱 来 控制 中 药 的 质量 ,它们 的 背景 漂移 就 成 
为 中 药 及 其 他 复杂 体系 分 析 的 一 个 重要 问题 ， 因 为 色谱 的 背景 漂移 不 仪 淹没 和 污染 真实 的 色 
谱 峰 的 分 析 信 号 ， 而 且 还 将 对 后 续 相似 度 的 计算 和 模式 识别 与 模式 分 析 带 来 很 不 利 的 影响 。 
本 方 将 以 色谱 指纹 图 谱 为 例 ， 来 讨论 其 漂移 背景 的 扣除 方法 。 实 际 上 ， 不 只 是 色谱 分 析 存 在 
背景 漂移 ， 还 有 很 多 波谱 、 如 复杂 分 析 体 系 的 拉 曼 光谱 、 核 磁 共 振 谱 等 也 都 存在 背景 漂移 ， 
本 节 讨 论 的 方法 对 它们 都 是 有 效 的 。 


一 、 自 适应 迭代 加 权 惩 罚 最 小 二 乘 背 景 扣除 方法 


一 般 说 来 ,色谱 指纹 图 谱 的 背景 扣除 可 采用 多 项 式 拟 合 来 进行 ， 但是， 这 些 方法 需要 用 
户 干 涉 ， 而 且 ， 当 信和 号 的 信 噪 比 (signal-to-noise ratio. S/N) 较 低 时 ， 它 们 易于 受信 号 波 
动 的 影响 。 在 本 节 中 ， 将 介绍 一 种 基于 自 适应 迭代 加 权 和 人 惩罚 最 小 二 乘 Cadaptive iteratively 
reweighted penalized least squares, airPLS) 的 色谱 指纹 图 谱 的 背景 扣除 方法 。 此 法 既 不 需 
要 用 户 干 涉 ， 也 无 须 预 先进 行 色谱 峰 识别 ， 它 通过 迭代 式 不 断 调整 拟 合 的 基线 与 原始 信和 号 之 
差 的 误差 平方 和 的 权重 ， 从 而 达到 一 个 平衡 结果 。 该 法 可 快速 并 灵活 地 估计 基线 ， 使 用 方 
便 。 同 时 有 关 此 算法 的 MATLAB 和 R 语言 的 源 代 码 已 在 网 络 上 (http: / code. google. 
com/p/airpls) 开源 公布 ， 读 者 可 自由 从 该 网 站 下 载 。 

惩罚 最 小 二 乘 (penalized least squares algorithm) 是 一 种 设计 巧妙 的 平滑 方法 ， 最 早 
由 Whittaker 在 1922 年 提出 [4 。 后 由 SilvermanL47.49 发 展 成 为 一 种 名 为 粗糙 度 惩 罚 的 统计 
平滑 方法 (参见 本 章 第 一 节 四 )， 并 将 其 用 于 低 信 品 比 的 联 用 色谱 数据 的 多 元 分 辨 方法 之 
r9, Eilers 则 将 惩罚 最 小 二 乘 方法 拓 广 至 一 般 的 化 学 信号 的 平滑 5 、 谱 峰 校准 5 和 基 
线 扣除 5 。 注 意 到 ， 在 本 章 第 一 节 “ 四 ”中 导出 了 下 式 

f —-caK) x 













































































亦 可 将 其 符号 改写 成 

d T AD'Doz =x (5-101) 
为 构建 基于 惩罚 最 小 二 乘 的 背景 扣除 方法 ，Carlo[5] 与 张 志 敏 等 [5 将 保 真 权重 矢量 引入 ， 
并 使 得 色谱 指纹 图 谱 x 中 所 有 有 峰 处 的 权重 为 零 ， 从 而 达到 一 个 基线 拟 合 平衡 的 结果 。 为 
此 ， 保 真 度 的 目标 函数 应 作 如 下 修改 






































F=) w; Gr; — 2,03 —(G —z) W( — z) (5-102) 
i-l 





AP, W 为 权重 矩阵 ， 实 际 是 一 个 对 角 和 矩阵 ，w; 为 其 对 角 元 素 。 
这 样 ， 式 (5-101) 将 变 为 





(W + AD'DO z =Wx 
采用 最 小 二 乘 解 上 述 方程 可 得 
z = (W 43-AD'D) Wx 
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自 适 应 迭代 加 权 过 程 与 加 权 最 小 二 乘 和 迭代 重 加 权 最 小 二 乘 的 过 程 类 似 555 7. Bie 
算 权重 的 方法 有 点 不 同 ， 且 在 计算 过 程 中 加 入 了 惩罚 项 ， 以 控制 拟 合 所 得 基线 的 平滑 程度 。 
在 自 适 应 迭代 加 权 过 程 的 每 一 步 ， 实 际 都 是 对 下 述 式 子 不 断 采用 最 小 二 乘 求 解 : 


m m 
=% wi [arma pa E a P 


其 中 权重 矢量 w 采用 迭代 方式 不 断 自 适应 地 进行 修正 ， 该 权重 矢量 的 初始 设 为 0， 即 w*— 
1， 在 后 续 的 迭代 步骤 中 ， 不 断 地 使 用 下 式 进 行 修正 : 


0 Xi 
D t(xi—zt7l) n 


e Ja] Ti «zz; 


在 此 矢量 d' 包含 了 原始 色谱 指纹 图 谱 (x) 与 迭代 过 程 中 的 拟 合 矢量 l 差 值 为 负 的 所 
有 元 素 。 

在 前 (一 1) 次 的 迭代 中 ， 拟 合 矢量 GU 实际 就 是 背景 估计 的 一 个 候选 值 。 如 果 当 
前 计算 值 大 于 此 背景 估计 的 一 个 候选 值 ， 它 就 被 视 为 是 处 于 峰 的 位 置 之 中 。 此 时 它 的 权重 就 
会 置 于 零 ， 而 使 其 的 影响 在 下 一 次 的 迭代 中 不 起 作用 。 在 airPLS 的 算法 过 程 中 ， 和 迭代 和 重 
加 权 在 不 断 地 自动 执行 ， 这 样 ， 就 可 自动 地 、 逐 渐 地 消除 处 于 峰 的 位 置 之 中 的 数据 点 ， 而 将 
背景 点 在 权重 矢量 w 中 保留 下 来 。 

迭代 的 终止 可 由 两 种 情况 来 控制 ， 即 如 迭代 次 数 大 于 某 一 特定 值 或 是 达到 了 和 迭代 完成 的 
标准 。 在 此 ， 定 义 迭 代 完 成 的 标准 如 下 : 

|d' |< 0. 001|x | 


在 此 矢量 d' 包含 了 原始 色谱 指纹 图 谱 (x) 与 迭代 过 程 中 的 拟 合 矢量 (G0 差 值 为 负 的 所 
有 元 素 。 


有 关 自 适应 迭代 加 权 惩 罚 最 小 二 乘 背景 扣除 方法 CairPLS) 的 计算 框图 示 于 图 5-20. 
























































x, 分 析 信号 矢量 
[Jane Y 


置 初 值 w=1 z 重新 计算 权重 w 
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最 终 所 得 的 基线 





CED 自 适应 迭代 加 权 惩 罚 最 小 二 乘 背 景 扣 除 方法 (airPLS) 的 计算 框图 


从 图 5-20 可 以 看 出 ， 在 进行 背景 扣除 时 ， 使 用 者 须 预先 给 定 一 个 粗糙 度 惩罚 值 ， 然 后 ， 
采用 重 加 权 的 方法 自 适 应 地 不 断 进行 重 加 权 处 理 ， 直 至 背景 扣除 。 值 得 指出 的 是 ，airPLS 
算法 是 一 个 很 有 用 的 背景 扣除 技术 ， 如 何 深 刻 理 解 这 个 方法 的 原理 是 本 节 的 一 个 重要 知识 





| 24 | 分 析 化 学 手册 © 化 学 计量 学 





点 。 读 者 须 尽 力 理解 在 网 上 (http: // code. google. com/p/airpls) 列 出 的 原 程序 ， 想 办 法 
运行 它 ， 并 在 此 基础 上 理解 它 的 原理 。 

在 此 ， 还 给 出 了 几 个 实例 以 说 明 airPLS 的 有 效 性 ， 同 时 ， 还 将 其 与 由 Carlos Cobas 提 
出 的 全 自动 背景 扣除 方法 (fully automatic baseline-correction, FABCO 992 和 渐进 最 小 二 乘 
背景 扣除 法 Casymmetric least squares baseline correction. ALS 算法 ) 进行 了 比较 。 网 5- 
21 给 出 了 采用 airPLS 算法 处 理 色谱 信和 号 的 例子 。 从 图 5-21 可 以 看 出 ， 对 于 线性 与 曲线 的 背 
景 漂移 的 两 种 情况 ，airPLS 算法 仅 经 过 几 次 迭代 就 可 以 完成 。 注 意 到 ,仿真 的 色谱 是 由 已 
知 的 高 斯 函数 构建 而 成 ， 这 样 就 可 以 直接 比较 背景 漂移 前 后 的 情况 ， 直 接 通过 峰 高 来 考察 方 
法 的 效果 。 表 5-11 列 出 了 airPLS、FABC 及 ALS 算法 三 个 方法 所 得 结果 的 比较 。 从 表 5-11 
中 所 列 结 果 可 以 看 出 ，airPLS 算法 得 到 了 最 好 的 结果 ， 特 别 是 对 小 峰 ，airPLS 给 出 了 较 好 结果 。 


背景 校正 结构 与 期 望 值 的 对 比 




























































































峰 高 
背景 类 型 峰 编 号 
未 校正 值 期 望 值 FABC ALS airPLS 
1 94. 45 79. 78 79. 71 77. 83 79. 97 
直线 2 78. 06 47. 87 48. 40 38. 25 48. 29 
3 34. 73 17. 09 6. 077 10. 89 17. 42 
1 95. 10 79. 78 79. 59 77. 83 79. 55 
曲线 2 93. 70 47. 87 47. 73 38. 25 46. 60 
3 93. 38 17. 09 6. 505 10. 89 16. 26 
ib: 相关 参数 设 定 : 对 于 FABC 方 法 , a—10. A—10; 对 于 ALS 方法, A—10. p—0.001. d=2; 对 于 airPLS 方 
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采用 airPLS 算法 处 理 模拟 色谱 信号 的 结果 
(a) 线性 背景 漂移 的 情况 ; (b) 曲线 背景 漂移 的 情况 
(不 同 迁 代 次 数 的 背景 矢量 用 灰色 线条 给 出 ) 



































本 节 所 讨论 的 airPLS 算法 还 可 用 于 拉 曼 光谱 和 核磁 共振 波谱 的 背景 扣除 ， 并 都 取得 较 
好 结果 。 图 5-22 示 出 了 48 个 药片 的 拉 曼 光谱 图 。 从 图 5-22 可 以 看 出 ， 这 些 拉 曼 光谱 的 欧 光 
背景 很 强 。 图 5-23 示 出 了 一 个 含有 背景 漂移 的 核磁 共振 波谱 (NMR)。 从 图 5-23 可 以 看 出 ， 
这 些 核 磁 共 振 波 谱 背 景 也 可 得 到 很 好 的 扣除 。 
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(a) 强 的 松 乙 酸 酯 药片 
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波 数 /cm 波 数 /cm! 
(b) 格 列 本 脲 药片 
BEP 48 个 药片 的 拉 曼 光谱 荧光 背景 扣除 前 后 的 比较 
( 左 图 表示 含有 严重 获 光 背景 的 拉 曼 光谱 ， 右 图 表示 背景 扣除 的 拉 曼 光谱 ) 
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一 个 含有 背景 漂移 的 核磁 共振 波谱 的 背景 扣除 实例 


二 、 分 位 数 回归 背景 扣除 算法 


分 位 数 回归 算法 实际 是 一 种 稳健 的 算法 ， 是 由 Koenker 与 Bassert 于 1978 年 率先 提出 
来 的 558] 。 由 于 算法 具有 回归 结果 的 稳健 性 ， 在 数据 的 分 析 过 程 中 它 不 会 受到 信和 号 中 异常 值 
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的 干扰 。 相 对 于 普通 的 最 小 二 乘 回归 算法 ,分 位 数 回 归 算 法 的 一 个 主要 优点 是 : 当 该 算法 用 
于 响应 值 测量 时 ， 对 于 离 群 数 据 的 估计 处 理会 表现 得 更 加 稳健 。 该 算法 目前 已 经 被 广泛 地 应 
用 于 多 种 学 科 领 域 ， 特 别 地 ， 分 位 数 回 归 方 法 对 于 具有 蜡 方差 性 、 拖 尾 和 尖峰 分 布 数据 的 独 
立 变 量 是 非常 适合 的 。 从 本 质 上 讲 ， 分 位 数 回归 算法 的 实质 是 普通 最 小 二 乘 回归 算法 的 扩 
展 ， 而 在 统计 学 应 用 中 常见 的 中 位 数 回归 算法 则 是 分 位 数 回 归 算 法 的 一 种 特殊 情况 。 

虽然 ， 早 在 1978 年 分 位 数 回归 算法 就 由 Koenker 和 Bassett 提出 ， 然 而 ， 直 到 2011 年 
分 位 数 回归 才 被 Komsta 初次 应 用 到 基线 信号 的 拟 合 中 [soJ 。 通 过 分 位 数 回归 算法 的 基线 估 
计 工 作 ， 其 原理 最 开始 是 着 眼 于 多 项 式 拟 合 ， 在 信号 峰值 区 域 很 小 的 分 位 点 上 (采用 值 
0.0D 拟 合 出 一 条 未 知 基线 。 通 过 这 种 方式 ， xi 从 是 分 位 数 回归 还 是 多 项 式 拟 合 ， 它 们 都 获 
得 最 低 的 拟 合 值 。 因 此 对 于 拟 合 的 基线 效果 来 说 ， 数 据 峰 在 基线 上 可 以 说 几乎 不 会 或 者 说 完 
全 不 会 产生 影响 。 关 于 分 位 数 回归 算法 更 加 详细 、 更 加 全 面 的 描述 与 讨论 可 以 参阅 Koenker 
5j Hallock 的 著作 5596 。 

由 于 最 小 一 乘 算法 的 作用 是 最 小 化 平方 误差 总 和 的 值 ， 而 所 述 的 最 小 二 乘 回归 方法 同样 
也 被 称 为 样本 均值 回归 。 然 而 ， 分 位 数 回 归 和 最 小 二 乘 回 归 算 法 的 根本 区 别 在 于 ， 当 工 代 
表 自 变量 XX 的 值 ， 与 y 相应 值 的 任意 分 位 点 QCy，r) ， 其 值 的 分 布 应 该 遵循 一 分 布 函数 

X — FGO 作为 近似 。 与 此 同时 ， 对 应 的 估计 方法 所 用 到 的 规则 则 是 寻找 一 个 4 值 ， 使 得 不 
对 称 加 权 误 差 值 的 绝对 值 之 和 最 小 。 总 的 来 说 ， 可 以 概括 为 计算 式 表 示 的 内 容 。 
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EER; 
其 中 , o, (u) =ulr— Iu <0], IC) 是 一 个 简单 指标 函数 。 
A 
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其 中 YDY DY 600 为 样本 V1 7y2，” ”Jr 的 次 序 统计 量 。 因 此 ， 当 nr >m 时 ， 








》) |y; i| EE 的 严格 递减 函数 ; 而 当 nr 二 m it, D |y; —6| E E 的 严格 递增 函数 ， 从 
i=1 i—l 
而 样本 yy,yz*，…y， 的 Tt 分 位 数 Q(y  — yquep 为 满足 要 求 的 6 。 
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作为 一 特殊 情况 ， 当 r 取 值 为 二 y PE min D) > —£| ， 此 时 样本 ya sys y, 的 中 位 


数 median(y) 为 满足 要 求 的 &， median(y/x) 取代 El(y/zx) TEX FCy/x) 
的 近似 ， 此 时 的 回归 系数 估计 方法 又 被 称 为 是 最 小 一 乘 回 归 。 

总 的 说 来 ， 最 小 二 乘 回 归 确 定 的 是 自 变 量 X 取 值 为 x 时 ， 与 之 相应 立 取 值 的 均值 为 
El(y/x); 而 对 于 分 位 数 回归 ， 其 确定 的 是 与 之 相应 Y 取 值 的 各 种 分 位 数 QCy，r) ， 换 
名 话说 ， 分 位 数 回 归 算 法 可 以 给 出 当 自 变量 X 取 值 为 x 时 ， 相 应 Y 取 值 的 各 种 分 位 点 的 估 
计 ， 从 而 可 以 获得 更 多 的 信息 ， 比 如 当 自 变量 X 取 值 为 x 时 ， 相 应 Y 取 值 的 较 大 值 (高 分 
位 点 ) 或 较 小 值 〈 低 分 位 点 ) 与 自 变量 相关 关系 的 确定 ， 即 分 位 数 回归 结果 具有 稳健 性 和 信 
息 丰 富 性 。 

如 前 节 所 述 ， 惩 罚 最 小 二 乘 是 一 种 平滑 算法 ， 即 


= Gi —20*3 A2] G; —z,)? 
i-—l i—2 


可 用 于 背景 漂移 的 消除 ， 不 过 ， 最 小 化 Q: 并 非 一 个 稳健 的 处 理 手 段 ， 尤 其 对 于 现实 世界 的 
实际 信号 这 可 能 并 不 太 理 想 。 甚 至 来 说 ， 该 算法 的 值 还 会 通过 平方 化 处 理 将 其 误差 值 放 大 。 
为 利用 分 位 数 回归 使 结果 具有 稳健 性 ， 改 变 目 标 函 数 如 式 〈5-103) Bron: 
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Qi—Mly;—z;lt-AM lz: >z l (5-103) 
i-l 1 一 2 


采用 绝对 值 的 总 和 替代 残 差 的 平方 和 方法 ， 这 意味 着 LL; 范 数 已 被 修改 成 Li1 范 数 。 同 
Bi, WARA (5-103) 的 有 边 ， 它 可 以 补 视 为 天 的 具有 2m 一 1 个 绝对 值 项 的 证 一 求 和 
函数 。 因 此 ， 可 以 通过 结合 分 位 数 回归 的 思想 与 线性 规划 策略 ， 提 出 一 种 新 的 方法 以 适应 数 
据 集 的 拟 合 。 

Koenker 和 Basset-9?J 曾 在 1984 年 提出 过 以 下 问题 : 矢量 y、 回 归 基 B Mn 阶 回归 系数 
a 。 并 随 着 参数 71 在 0 到 1 之 间 变 化 而 取 值 ， 可 用 式 (5-104) 表示 : 








m 


SG) — Dor (yi — bus; (5-104) 
i Jj 


式 中 , pi Co 是 校 验 函数 ， M ul 时 ， PUE tu; M u< 时 ， 取 值 (cr —Dp, TEX 
(5-104) 中 ， 残 差 的 加 权 绝 对 值 将 会 通过 它 返 回 出 来 ，z 对 应 的 是 十 1 而 1 一 + 对 应 的 则 是 
。 当 r+ 二 0.5 时 ， 权 重 值 是 独立 于 信和 号 存在 的 。 因 此 ， 解 出 方程 的 结果 也 就 是 等 价 于 解决 


























了 方程 Qi = > ERNES 3 lz; 一 z;_1 | ， 这 种 类 推 思想 即 常 用 的 中 位 数 回归 思想 。 


Koenker 和 Portnoy 根据 内 ， A 法 线性 规划 过 程 将 这 种 方法 应 用 到 了 一 种 新 的 高 效 算法 
中 [63] 。 这 些 方法 都 已 通过 R@ 和 MATLABT™ 编程 语 言 实现 并 有 相关 的 开源 代码 可 供 参 考 ， 
然而 ， 要 应 用 于 信号 平滑 和 基线 校正 处 理 的 程序 还 是 要 进行 相应 的 修改 。 如 式 (5-105) 


所 示 : 
»-p 和 有 一 | | (5-105) 
0 AD 


RP, y 代表 原始 数据 集 ; 0 是 一 个 含有 mm 一 1 个 零 元 素 的 0 矢量; I 代表 m Xm 的 单 
AREE D 也 是 一 个 矩 泗 ， 并 有 D: 一 A; 。 因 此 , D 成 为 了 一 个 (m1 一 1) Xm 阶 的 调整 矩阵 ， 
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其 目标 是 将 z 转化 为 相 邻 元 素 的 差 值 。 理 想 情况 下 ，y“* 向 量 和 B 基 矩 阵 是 用 于 下 一 步 进 行 
的 最 佳 选择 。 

选择 性 迭代 加 权 分 位 数 回 归 算 法 (selective iteratively reweighted quantile regression. 
SirQR)L59 ， 其 主要 思想 类 似 于 加 权 最 小 二 乘法 算法 5] 、 和 迭代 重 加 权 最 小 二 乘 算法 [5864 和 
自 适应 迭代 加 权 惩 罚 最 小 二 乘 算 法 1] 的 思想 。 但 是 ， 它 将 采用 完全 不 同 的 策略 来 计算 权重 
值 的 大 小 ， 并 利用 加 权 调 整 项 来 控制 拟 合 基线 的 平滑 度 。 如 式 (5-1060 所 示 : 
































S'G) = 2 jeipe (y; — 26a) (5-106) 
i j 


式 中 ，w; 代 表 权 重 向 量 ， 通 过 使 用 迭代 的 方法 选择 性 获取 变化 的 权重 值 。 在 大 量 的 实 
验 测试 和 精准 的 计算 下 ， wo 的 初始 值 在 首 步 中 被 设 定 为 10 * OX 0 到 10-”* 变 化 范围 内 选 
取 )。 数 据 初始 化 后 ， 每 个 迭代 步骤 的 w 值 可 以 使 用 下 列表 达 式 获取 : 
10-1 d; dy, 
ji | (5-107) 
e |a | d; «dy 
式 中 ,4d; 王 x; 一 z! 5. RÆ d' 的 值 由 x M l KARRAR, CÓ d; BIN TE 
d, —5.0X10 ^B, ME z 次 迭代 过 程 后 拟 合 效 果 已 达到 了 要 求 。 同 时 ,为 了 能 与 原始 信号 
数据 集 更 好 地 拟 合 ，dw 的 值 可 以 通过 用 户 选 择 性 获取 ， 而 不 仅仅 只 是 5.0X10 的 默认 值 。 
诸如 多 变量 、 大 数量 积 数据 ， 为 了 获得 更 好 的 趋 近 值 ， 对 应 的 du 值 应 该 被 设 定 为 大 于 默认 
值 的 数值 。 在 前 面 的 1 一 1 次 迭代 过 程 中 ， 第 x1 次 的 拟 合 值 被 认为 是 基线 拟 合 的 候选 值 。 
如 果 第 i 次 的 拟 合 点 值 要 远大 于 候选 基准 值 ， 则 它 就 可 以 被 看 作 峰 值 的 一 部 分 。 所 以 ， 相 应 
c 的 权重 值 被 设 定 为 一 个 很 小 的 值 即 10-1? ， 用 来 在 下 一 次 迭代 过 程 中 做 o 值 以 近似 忽略 
(考虑 到 分 位 数 回 归 算 法 对 于 整个 数据 集 的 影响 情况 ， 因 而 不 能 将 wo 设 为 0) 。 为 了 在 权重 向 
Ti o 中 有 效 地 获得 峰值 点 ， 并 逐步 地 消除 它们 以 保持 基线 点 的 权重 值 ， 这 种 迭代 与 加 权 的 
思路 被 灵活 地 应 用 到 了 SirQR 算法 中 。 
对 于 整个 迭代 过 程 ， 其 拟 合 终 点 可 以 是 达到 最 大 迭代 次 数 iwaxw， 也 可 以 是 达到 拟 合 终止 
条 件 。 终 止 控制 条 件 被 定义 为 下 式 : 
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为 更 加 直观 地 阐述 本 章 中 所 提出 的 基线 校正 算法 ， 现 将 SirQR 算法 的 框架 流程 结构 图 
列 于 图 5-24。 

下 面 以 几 个 实例 说 明 SirQR 算法 的 有 效 性 。 

1. 高 效 液 相 色谱 数据 分 析 (HPLC-DAD) 
首先 ， 对 取 自 10 种 不 同 地 区 的 铁皮 石狮 的 高 效 液 相 色谱 数据 进行 分 析 。 原 始 数据 中 的 
基线 、 噪 声 均 未 处 理 ， 现 采用 SirQR 算法 对 已 知 数据 的 基线 进行 校正 工作 ， 参 数 设 定 为 : 
À—1.25; un —0.03, HPLC 谱 图 的 原始 数据 与 校正 后 的 色谱 数据 均 在 下 图 5-25 中 展示 出 来 ， 
其 中 (a) 图 为 未 校正 的 原始 数据 ，(b) 图 为 校正 后 的 结果 图 。 对 比 两 图 后 可 明显 看 出 ， 校 
正 后 基线 影响 作用 大 大 降低 ， 先 前 由 于 漂移 所 产生 的 巨大 差异 及 其 干扰 成 分 亦 被 明显 剔除 。 
为 更 进一步 地 展示 其 校正 作用 的 有 效 性 与 可 靠 性 ， 采 用 两 种 不 同 的 降 维 方法 对 均值 中 心 化 后 
的 数据 集 进 行进 一 步 的 分 析 。 首 先 采 用 主 成 分 分 析 Cprinciple component analysis. PCA) 
方法 分 析 ， 通 过 比较 均值 中 心 化 后 的 原始 数据 集 与 相应 的 校正 数据 集 的 第 一 、 二 主 成 分 表 进 
行 分 析 。 第 二 种 方法 则 是 多 维 距 离 分 析 (multidimen sional scaling, MDS) FU], © 
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同样 适用 于 该 矩阵 数据 集 ， 并 包括 了 原始 与 校正 后 的 均值 中 心 标准 化 色谱 信号 。 分 析 结 果 示 
于 图 5-26 。 
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(a) (b) 


不 同 产地 10 Ahk E A f b S tE EE (HPLC-DAD) 
Ca) 未 校正 的 原始 数据 ; (b) 经 SirQR 算法 校正 过 的 结果 数据 








从 图 5-26 可 以 发 现 ， 分 析 数 据 的 第 一 、 二 主 成 分 的 得 分 及 方差 大 小 均 取 得 了 较 大 的 提 
高 ， 而 且 其 解释 能 力也 更 强 ， 同 时 校正 后 的 结果 更 加 容易 区 分 模型 的 差异 和 重心 位 置 。 在 图 
5-26 (a) 和 (bo 中 ， 圆 圈 表 示 原 始 的 色谱 图 而 三 角形 则 代表 校正 后 相应 的 色谱 图 。 很 显 
然 ， 从 两 图 中 的 黑色 实 、 虚 线 环 可 以 清楚 地 看 出 ， 三 角形 的 移动 和 聚集 性 是 更 加 紧凑 和 密集 
的 ， 表 现在 包含 校正 后 所 有 样本 点 的 圆 环 ， 其 尺寸 明显 小 于 包含 所 有 未 校正 原始 数据 点 的 圆 
环 。 注 意 到 ， 由 于 第 一 、 二 主 成 分 的 方差 比 已 占 到 了 总 量 的 60% 以 上 ， 则 利用 该 主 成 分 分 
析 来 做 分 类 分 析 是 比较 可 靠 的 。 特 别 地 ， 在 图 5-26 (b〉 中 的 多 维 距离 (MDS) 中 分 析 方 
法 ， 同 样 也 利用 了 一 种 清晰 的 呈现 手段 将 校正 后 数据 的 聚集 趋势 清晰 地 展示 出 来 。 从 网 5-26 











| 27 分 析 化 学 手册 “10” 化 学 计量 学 






































o 原始 信号 o 原始 信号 
30- ^ 校 正 后 的 信号 ib ^ Bd 
20- ja! 
< ; 
O 
2 10t " 
& OQ 0 
~ & 
g o 
-0.5 
—10- 
—]r- 
-20 
-4 3 2 4 0 1 2 3 32 L5 1-05 0 05 1 15 2 25 
PC.(42.8696) PC, 


(a) (b) 


经 SirQR 算法 校正 后 的 HPLC-DAD 数据 与 原始 数据 进行 降 维 与 聚 类 分 析 
Ca) 使 用 主 成 分 分 析 (PCA) 方法 分 析 ; (b) 使 用 多 维 尺 度 分 析 (MDS) 方法 进行 分 析 















































(b) 中 可 以 清楚 地 看 到 ， 通 过 SirQR 算法 校正 后 的 数据 模型 其 重心 会 明显 地 倾向 于 靠近 中 
心 点 ， 正 如 图 中 所 示 的 其 主 成 分 空间 明显 趋向 于 一 个 更 加 紧凑 的 窗 小 椭圆 中 〈 也 即 ， 包 含 所 
有 原始 数据 的 实 线 大 环 与 包含 所 有 校正 数据 的 椭圆 虚线 小 环 ) 。 此 外 ， 这 些 校正 后 的 样本 点 
其 聚集 程度 也 变 得 更 加 靠近 标准 中 心 点 了 。 结 合 本 小 节 中 所 用 到 的 分 析 方 法 ，PCA 和 MDS 
分 析 图 能 够 很 好 地 展示 出 SirQR 算法 的 正确 性 和 可 靠 性 。 通 过 SirQR 算法 的 处 理 ， 校 正 后 
的 色谱 图 具有 更 加 紧 竣 的 空间 模式 ， 并 且 更 接近 于 分 析 工 作者 所 期 望 的 谱 图 。 然 而 ， 之 所 以 
能 够 使 校正 数据 在 聚 类 和 分 类 结果 上 都 得 到 明显 提高 ， 在 一 定 程度 上 可 以 归 因 于 主 成 分 分 布 
空间 的 紧凑 性 和 密集 性 的 提高 。 

2. 气相 色谱 飞行 时 间 质 谱 联 用 数据 分 析 (GC-TOF-MS) 

对 于 烟草 样本 的 GC-TOF-MS 数据 集 ， 同 样 采用 SirQR 算法 进行 校正 。 首 先 ， 取 出 数 
据 集 的 色谱 图 利用 SirQR 算法 扣除 其 漂移 的 背景 ， 再 利用 主 成 分 (PCA) 分 析 方 法 进行 进 
一 步 的 分 析 ， 与 此 同时 ， 其 分 析 结果 也 会 与 另外 一 种 新 颖 的 基线 校正 算法 一 一 MPLS5 汪 算 
法 相 比 较 ， 对 比 两 种 算法 的 优 劣 。 分 析 结 果 如 图 5-27 所 示 ， 在 图 5-27 (a) 与 (b) 中 研究 
人 员 能 清楚 地 看 到 校正 前 与 校正 后 的 对 比 数据 ， 而 该 处 理 效果 从 另 一 方面 也 证 实 了 SirQR 
算法 对 于 去 除 背 景 漂移 的 足够 灵活 性 ， 以 至 于 一 些 变量 数 更 大 的 数据 集 。 此 外 ， 主 成 分 分 析 
方法 同时 也 被 用 来 测试 SirQR 算法 的 合理 性 。 

在 数据 预 处 理 当 中 ， 数 值 微 分 可 以 消除 缓慢 漂移 的 背景 575 。 因 此 ， 将 主 成 分 分 析 方 
法 应 用 于 一 阶 数值 微分 预 处 理 过 的 原始 信号 与 校正 信号 ， 并 进行 合理 性 测试 。 在 图 5-27 C) 
中 ,三 角形 代表 原始 色谱 信和 号， 而 十 字符 号 代表 校正 后 的 数据 。 不 难 发 现 ， 在 主 成 分 空间 中 
校正 前 后 的 合理 性 匹配 度 非 常 高 ， 这 表明 SirQR 算法 在 校正 数据 后 ， 不 会 消除 原 有 色谱 信 
号 的 重要 信息 。 此 外 ， 由 于 所 有 的 8 个 样品 均 为 平行 样本 ， 从 理论 上 来 说 ， 如 果 背 景 的 影响 
可 以 忽略 不 计 ， 那 么 校正 前 后 的 样本 均 应 该 位 于 彼此 接近 的 主 成 分 空间 之 中 。 在 图 5-27 
(d)， 三 角形 表示 在 主 成 分 空间 中 没有 经 过 任何 校正 的 原始 色谱 数据 (包括 SirQR 算法 和 
MPLS 算法 ); 加 号 表示 通过 本 章 中 提出 的 SirQR 算法 校正 过 的 色谱 信号 ; 而 菱形 则 代表 由 
MPLS 算法 校正 后 的 色谱 信号 。 在 第 一 主 成 分 的 方向 上 ， 数 据 集 主要 传递 的 是 样本 差异 性 信 
息 ， 并 且 其 第 一 主 成 分 的 方差 值 占 到 了 总 值 的 92%。 如 果 假 设 这 些 原始 样本 的 色谱 信号 在 
第 一 主 成 分 方向 的 分 布 范围 为 L， 那么 可 以 很 容易 地 获得 同样 在 第 一 主 成 分 方向 的 分 布 范 围 
上 经 SirQR 和 MPLS 算法 校正 的 数据 跨度 值 。 测 量 比 较 后 ， 可 以 得 出 通过 SirQR 方法 校正 
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(c) (d) 


ERZ 气相 色谱 质谱 联 用 (GC-TOF-MS) 数据 分 析 结果 
Ca) 不 同 背 景 值 条 件 影响 下 的 8 个 样本 原始 数据 ; CO 通过 SirQR 算法 校正 过 的 对 应 色谱 数据 ; CO) 通 
过 SirQR 算法 校正 前 后 的 结果 数据 在 数值 一 阶 微分 的 预 处 理 情况 下 的 主 成 分 分 布 ;(d) 通过 SirQR 算法 校 
正 前 后 的 结果 数据 在 主 成 分 分 析 空 间 中 的 分 布 情况 ， 同 时 对 比 MPLS 算法 的 相同 校正 情况 

















的 数据 跨度 为 0. 410L ， 而 经 过 MPLS 方法 处 理 的 数据 库 跨度 值 为 0.430L ，SirQR 算法 相 比 
MPLS 算法 在 消除 样本 差异 性 的 特点 上 会 有 略微 的 优势 。 同 时 ， 这 些 数据 值 也 表明 了 SirQR 
算法 能 够 扣除 大 部 分 源 自 背景 的 扰动 ， 并 且 该 算法 不 仅 能 达到 MPLS 算法 处 理 的 效果 ， 在 
某 些 程度 上 甚至 会 优 于 MPLS 算法 。 根 据 上 述 的 分 析 过 程 ， 不 难 发 现 原始 色谱 数据 在 第 一 
主 成 分 方向 上 的 较 大 变化 可 以 主要 归 因 于 色谱 与 色谱 之 间 的 背景 差异 。 而 本 章 中 所 提出 的 
SirQR 算法 则 正 是 一 种 能 在 一 系列 的 色谱 数据 中 有 效 扣除 背景 干扰 并 不 丢失 重要 数据 信息 的 
首选 方法 。 

3. 核磁 共振 数据 分 析 

核磁 共振 (NMR) 信和 号 取 自 人 体 纯化 的 血浆 样本 与 尿 液 样 本 的 质子 信号 。 每 个 NMR 
数据 信号 包含 了 超过 了 四 万 个 变量 数 。 由 于 自 变量 的 数量 和 信号 的 强度 值 非常 大 ， 原 始 信 号 
与 拟 合 值 之 间 的 差 值 (dm) 可 由 研究 者 自行 有 选择 性 地 改变 。 将 差 值 设 定 为 dm —2.5X 
104， 同 时 ， 其 他 的 参数 值 则 按照 默认 条 件 设 定 为 (A — 1.25, jy 二 0.03)。 在 图 5-28 (b) 
中 ， 能 观察 到 一 个 很 好 的 校正 结果 ， 而 达到 这 种 比较 理想 的 校正 结果 仅仅 只 需要 三 次 迭代 就 
能 够 完成 ， 从 另 一面 也 说 明了 SirQR 算法 的 强大 之 处 。 图 5-28 (a) 和 (bo 子 图 中 ， 实 线 1 
代表 校正 前 后 的 血浆 数据 ， 而 实 线 2 则 代表 校正 前 后 的 尿 液 信号 。 为 了 更 清楚 地 看 到 每 个 样 
品 的 校正 总 过 程 ， 将 这 两 个 样品 分 别 展示 在 两 个 不 同 的 子 图 (c) 和 CD. 中 ， 其 中 每 个 图 中 
包括 了 原始 数据 ( 实 线 1) 、 拟 合 基线 ( 实 线 2) 和 校正 后 的 信号 〈 实 线 3) 。 对 于 校正 结 
的 差异 性 变化 ， 校 正 后 的 线条 3 其 重合 度 有 一 个 明显 的 提高 ;从 另 一 个 角度 来 说 ， 这 表明 同 
类 物质 的 共性 信息 得 到 了 明显 提升 ， 也 有 助 于 后 期 的 分 类 分 析 和 特征 峰 提 取 工 作 。 

此 外 ， 对 于 这 批 核磁 共振 数据 同样 采用 了 PCA 与 MDS 这 类 模式 识别 的 方法 进行 测试 ， 
其 结果 如 图 5-29 所 示 。 在 图 5-29 (a) 和 (bo 子 图 中 ， 标 号 为 1 一 5 的 五 个 样本 代表 着 五 个 
采 自 不 同 个 体 的 尿 液 样本 ， 其 中 圆圈 表 示 原 始 数据 ， 而 三 角形 表示 用 SirQR 校正 过 的 结果 
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正 后 的 血浆 样品 





血浆 和 尿 液 样品 核磁 共振 (NMR) 数据 的 基线 校正 结果 图 
(a) 一 个 血浆 样品 (下 方 线 20 和 一 个 尿 液 样品 (上 方 线 1) 的 原始 NMR 数据 ; (b) 对 应 G0. 图 中 数据 校 








(下 方 线 2) 和 屎 液 样品 (上 方 线 D. NMR 数据 ; 








(e) 这 一 批 尿 液 样本 的 原始 数据 〈 线 1) 、 拟 












































合 基准 线 (ER 20 和 校正 的 结果 ( 线 3); (dO 这 一 批 血浆 样本 的 原始 数据 ( 线 D. 、 拟 合 基 准 线 〈 线 2) 和 校正 的 结 
R ( 线 3) 
1 4F ; 
o 原始 数据 o 原始 数据 

08 ^ 校 正 结果 3l 4 校正 结果 

0.6 上 

0.4 上 er 
S o2. 1 
$ T 
& (9 g o 
Q -0.2 aL 
e 

-0.4| 

一 2 上 

-0.6 

-0.8 3 

-]1 1 1 1 一 4 上 1 1 i : 1 1 

-6 -4 -2 0 2 4 6 -8 o -6 Eh  — 0 2 4 
PC,(62.2594) PC, 
(a) (b) 


采用 两 种 不 同 的 分 析 方法 (MDS 和 PCA) ， 对 五 个 尿 液 样本 的 H NMR 原始 数据 和 
校正 结果 数据 进行 中 心 化 和 标准 化 后 的 第 一 、 二 主 成 分 分 布 图 






































(a) 使 用 经 典 的 PCA 方法 ,以 及 其 方差 值 ，(b) 使 用 MDS 方法 
在 这 两 张 图 片 中 ， 这 些小 圆圈 表示 原始 的 尿 液 NMR 数据 ;三 








实心 大 圆圈 表示 的 原始 采样 点 的 紧凑 性 ， 虚 线 大 圆 表示 校正 后 样品 
势 也 说 明了 经 过 SirQR 算法 校 J 








的 紧凑 性 ， 














E 后 样本 紧凑 性 的 改善 情况 





形 代表 校正 后 的 尿 液 NMR 数据 。 
两 个 黑 圈 之 间 的 变化 趋 








第 五 章 “分析 信 号 处 理 方法 | 243 | 


数据 ， 并 且 每 一 类 数据 均 做 了 均值 中 心 化 的 标准 处 理 。 而 两 个 大 圆 环 则 是 用 来 表示 样本 点 的 
紧凑 程度 ， 外 围 的 实 线 环 表 示 原 始 样本 点 的 紧密 度 ， 内 部 的 虚线 环 则 表示 相应 数据 经 校正 后 
的 数据 紧密 度 。 从 图 5-29 (a) 和 (bo 中 ， 均 能 看 出 实 线 圆 环 和 虚线 圆 环 在 PCA 和 MDS 
的 主 成 分 空间 内 清晰 的 变化 趋势 和 聚集 程度 。 这 种 现象 表明 ， 尿 液 样 品 在 校正 之 后 获得 了 一 
个 更 好 的 聚 类 效果 。 在 图 5-29 (a) 中 ， 由 于 第 一 、 二 主 成 分 分 析 的 方差 值 已 超过 8026. X 
于 校正 过 程 的 模式 识别 处 理 和 算法 解释 则 是 非常 有 说 服 力 的 。 同时， 三 角形 ( 即 校正 后 的 数 
据 ) 很 明显 地 显示 出 ， 通 过 SirQR 算法 的 校正 后 第 一 、 二 主 成 分 的 影响 已 明显 减 小 ， 同 时 
数据 样本 的 紧密 度 也 被 大 大 提高 了 。 从 图 5-29 (bo 中 ， 可 以 很 容易 地 观察 到 在 多 维 距离 空 
间 中 三 角形 点 (校正 后 的 样本 点 ) 的 紧密 度 趋势 变 得 更 加 清晰 、 更 加 明显 了 ;， 同时 也 说 明了 
第 一 、 二 维度 的 主 成 分 扰动 在 通过 SirQR 算法 的 处 理 后 得 到 了 明显 改善 ， 并 使 得 原先 散乱 
的 数据 点 趋向 了 一 个 近似 的 回归 域 。 不 难看 出 ， 从 第 一 、 二 主 成 分 空间 获得 的 分 析 结 果 结 合 
校正 后 数据 集 的 聚集 程度 ， 从 某 种 意义 上 说 ， 是 可 以 很 好 地 满足 这 一 大 类 分 析 过 程 及 其 应 用 
的 。 总 而 言 之 ，SirQR 算法 也 可 以 像 处 理 计算 机 模拟 数据 一 样 ， 高 效 灵 活 地 处 理 实际 存在 的 
高 通 量 实 验 数据 集 。 


三 、 自 动 双边 指数 平滑 算法 (ATEB) 


指数 平滑 算法 是 一 种 非常 有 效 的 平滑 技术 手段 ， 它 被 广泛 地 应 用 于 各 种 不 同类 型 的 信号 
数据 ， 特 别 是 高 信 噪 比 数据 。 几 乎 所 有 真实 的 数字 信号 其 本 身 就 是 一 个 噪声 的 观测 序列 ， 而 
所 观察 到 的 现象 也 可 以 认为 实质 上 是 一 个 随机 的 过 程 ， 或 者 说 它们 是 潜在 有 序 的 只 是 一 个 有 
噪声 存在 的 过 程 。 然 而 ， 在 单一 移动 均值 的 影响 下 ,原始 观测 值 被 赋予 均等 的 权重 值 ， 从 而 
使 得 指数 平滑 算法 给 其 相应 信号 随 变 量 增 加 的 步 长 指数 递减 的 分 配 权重 值 。 就 如 Dave Hale 
教授 在 其 文章 中 所 描述 的 一 样 "””] ， 指 数 平滑 滤波 器 可 以 将 权重 值 逐 步 标准 化 ， 而 正 因 为 这 
样 ， 其 权重 值 的 和 能 慢 慢 趋 近 于 1。 这 就 意味 着 ， 当 该 滤波 器 被 应 用 到 恒定 输入 值 序列 n — 







































































































































































常数 (已 经 平滑 到 终点 )， 则 输出 值 将 是 相同 的 常数 y; 王 常数。 在 图 5-30 中 ， 展 示 了 指数 平 
滑 算 法 与 其 他 两 种 备 选 平滑 算法 ， 在 具有 可 比 性 宽度 情况 下 的 权重 值 情况 。 
@ 
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表示 3 种 平滑 算法 的 权重 脉冲 响应 值 图 
图 5-30 中 包括 指数 平滑 (点 1) ， 高 斯 平滑 〈 点 2) EREN (box-car， 点 3) 滤波 器 
对 于 这 些 渡 波 器 ， 每 一 个 输出 样本 都 是 邻近 样本 的 加 权 平 均值 ， 而 此 处 展示 的 则 是 权重 值 图 
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事实 上 ， 指 数 平滑 算法 早 在 1956 年 由 Robert Goodell 首次 提出 ， 并 通过 电子 计算 机 系 
统 控制 系统 成 功 应 用 于 需求 库存 数据 的 预测 工作 [89 ， 随 之 得 到 了 Charles C. Holt 的 推 
广 [80] 。 由 Robert 提出 的 指数 平滑 估计 算法 并 没有 获得 统计 学 上 的 效率 ， 但 其 计算 效率 还 是 
很 不 错 的 。 与 此 同时 ，Kalekar 提出 一 种 霍 尔 特 - 温 特 斯 指数 平滑 算法 ， 并 将 其 应 用 到 两 个 季 
节 性 的 时 间 序 列 数据 模型 的 分 析 中 [8 ， 两 个 模型 包括 乘积 性 季节 模型 和 累加 性 季节 模型 。 
此 外 ，La Viola 成 功 地 提出 了 一 种 基于 新 型 滤波 器 的 预测 跟踪 算法 一 一 “ 双 指 数 平滑 ” 算 
法 ， 并 且 能 够 为 用 户 的 位 置 和 方向 提供 准确 的 跟踪 与 预测 [282 。 当 该 方法 通过 阶乘 自由 模型 
与 卡尔 曼 滤波 、 扩 展 卡 尔 曙 滤波 预测 器 相 比 较 ， 在 产生 具有 同等 表征 的 预测 值 时 ， 该 方法 被 
证 明 实 现 起 来 更 加 简单 、 运 行 速度 更 加 快速 ， 其 运算 速度 几乎 是 男 外 两 种 方法 的 135 t, 
因此 ， 将 指数 平滑 算法 应 用 到 高 通 量 数据 的 预 处 理 中 无 疑 是 一 个 很 好 的 思想 ， 特 别 是 对 高 分 
辨 大 型 数据 。 

指数 平滑 (exponential smoothing) 是 一 种 可 以 应 用 到 一 系列 数据 的 序列 处 理 技 术 ， 它 
能 用 来 产生 平滑 的 数据 ， 或 者 做 出 下 一 步 的 近似 预测 。 通 常 ， 指 数 平滑 适用 于 金融 市 场 和 经 
济 数据 的 分 析 ， 但 是 ， 它 可 以 在 其 他 种 类 的 复 测 离 散 数 据 集 中 使 用 。 算 法 最 简单 的 形式 仅 用 
于 没有 任何 系统 性 趋势 或 者 时 令 性 成 分 的 数据 [5,35] 。 目 前 ， 普遍 使 用 的 指数 平滑 算法 是 由 
Brown 演算 出 来 的 方程 [ 见 式 (5-108) ]. 通常 又 将 其 称 为 “Brown 简单 指数 平滑 ”。 该 算 
法 不 仅 普遍 适用 于 统计 学 数据 和 数字 信和 号 处 理 ， 而 且 也 可 以 应 用 于 其 他 重 测 离散 集 。 原 始 数 
据 序列 常用 {x,) 表示 : 通过 指数 平滑 算法 运算 所 输出 的 结果 用 S, 表示 ， 它 可 以 被 看 作 是 
下 一 个 z 值 的 最 佳 估计 。 当 平滑 观测 序列 开始 时 ， 也 即 分 析 化 学 光谱 数据 的 第 一 个 变量 奖 
( 即 :一 0)， 设 置 初 始 值 为 : so 一 x。。 之 后 ， 指 数 平滑 算法 最 简单 的 形式 可 如 式 (5-108) 
所 示 : 
























































































































































S, —azr,-(1—2a)S;A (2D (5-108) 


式 中 ,a 是 平滑 因子 ， 其 值 为 0 二 a 二 1。 换 句 话 说 ,平滑 后 的 信号 值 S, 即 为 表征 观测 值 
zx, 和 前 一 次 平滑 元 素 S,_1 的 简单 加 权 平 均值 。a 的 取 值 越 大 ， 对 于 数据 平滑 度 的 处 理 反而 会 
越 小 ， 使 其 趋 于 原始 数据 序列 。 注 意 到 ， 当 平滑 因子 达到 其 极限 值 a 二 1 时 ， 其 输出 序列 也 
就 是 其 原始 的 数据 集 〈 但 是 ， 数 据 却 有 一 个 可 变 单 元 的 滞后 ) 。 简 单 的 指数 平滑 算法 非常 简 
洁 ， 而 且 得 到 了 广泛 的 推广 ， 特 别 地 ， 该 算法 只 要 两 个 可 用 观测 值 就 能 产生 相应 的 平滑 
信号 。 

M a 的 值 接 近 1 时 ， 它 会 产生 较 小 的 平滑 效果 并 给 数据 序列 中 最 近 变 化 的 数据 赋予 一 个 
较 大 的 权重 值 ， 相 反 ， 当 a 的 值 接近 于 0 时 ， 它 有 较 大 的 平滑 效果 并 且 对 于 最 近 变 化 的 数据 
结果 不 会 产生 太 大 的 响应 。 为 了 优化 平滑 因子 a 与 观测 值 S, 的 估计 程序 ， 双 边 指 数 平 滑 算 
法 被 引入 了 下 一 步 研究 工作 中 。 

双边 指数 平滑 算法 (two-side exponential smoothing)， 又 称 “ 双 指数 平滑 ”或 者 说 
“二 阶 指数 平滑 ”算法 86.87] 。 在 一 般 情 况 下 ， 当 处 理 的 数据 出 现 一 定 倾向 的 趋势 时 ， 简 单 指 
数 平滑 算法 就 显得 有 些 力不从心 了 ， 在 这 种 情况 下 ， 双 边 指数 平 请 算法 则 被 设计 出 来 了 。 其 
算法 的 基本 思想 是 : 引入 一 个 可 能 的 数据 序列 项 ， 并 用 它 来 考虑 整个 数据 变化 的 趋势 。 用 于 
倾斜 趋势 的 控制 部 分 ， 其 自身 也 会 随 着 指数 平滑 过 程 更 新 。 

同样 ， 正 如 上 述 简 单 指数 平滑 算法 的 描述 ， 观 测 值 的 原始 数据 序列 仍然 由 {x,) 表示 ， 
并 以 第 一 个 谱 图 变量 为 起 始 值 〈 即 1 二 0)， 相 应 的 S 代表 指数 平滑 值 。 因 此 SPP 和 Si? 分别 
代表 ,在 了 的 数据 区 间 内 第 一 次 指数 平滑 的 结果 值 和 第 二 次 指数 平滑 的 结果 值 。 简 言 之 ， 
这 种 双边 指数 平滑 算法 的 递归 式 可 被 书写 为 如 下 形式 : 
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SP 一 az 十 (1 一 wx)SC 
SP =S 4-(OL—22877 


式 中 , a 也 是 数据 值 的 平滑 因子 ,并且 其 值 的 取 值 范围 也 是 Oa 1. MAh, MARIER 
的 “ 双 指 数 算法 ”， 本 文中 将 算法 每 边 的 初始 估计 值 设 置 为 : Si? Sro SP —SQU 。 这 样 的 
处 理 ， 意 味 着 该 算法 是 在 第 一 次 平滑 的 前 进 方向 上 进行 推进 ， 并 且 在 第 二 次 平滑 过 程 中 该 算 
法 会 反方 向 地 修正 并 回溯 以 前 的 平滑 结果 。 因 此 ， 它 在 第 二 次 平滑 过 程 开 始 时 〈 即 上 一 2) 
会 利用 第 一 次 平滑 的 最 终结 果 S, 

注意 到 式 〈5-109) 从 本 质 上 只 与 x WEAR, 它 可 简化 为 只 与 x 相关 的 式 C 
110)， 即 


(5-109) 





















































p~l 
SP =a 51 Q —a)ir,; Fa —a)zo 























i (5-110) 
S? =a), 8g pell PSP 
1-0 
由 于 第 二 平滑 的 初始 值 是 式 〈5-111) 的 值 : 
n—1 
SP? —S(D, =a A — iz, ; Fa (1— az, (5-111) 
1—0 
双边 指数 平滑 结果 可 总 结 为 计算 式 (5-112) : 
2 t—i—l 
S? =a X Aala 9] Aar Heda) r] 
i=0 j=0 
n—1 
-Fa(1—a)'[a > 一 oz ; --a(1—2)"z,] (5-112) 
i-—0 


通过 上 述 方程 ， 不 难 发 现 选用 双边 指数 平滑 的 一 个 重要 因素 : 在 整个 平滑 过 程 中 每 个 佑 
计 点 的 值 均 涉及 了 所 有 的 原始 数据 点 的 值 以 及 相应 的 权重 值 。 

自动 双边 指数 平滑 算法 (automatic two-side exponential algorithm baseline correction 
method, ATEB) 应 用 于 基线 校正 的 方法 包括 以 下 两 个 步骤 : 首先 ， 原 始 数据 集 通 过 迭代 过 
程 利用 双边 指数 平滑 算法 逐渐 平滑 信号 并 拟 合 出 基线 ;随后 ， 当 拟 合 结果 达到 预先 的 判定 值 
或 是 校正 终点 ， 最 终 的 校正 基线 将 会 自动 确定 并 生成 相应 的 返回 值 。 

在 该 算法 中 ， 自 动 双 边 指数 平滑 基线 校正 算法 将 分 析 化 学 中 的 化 学 基线 识别 问题 转变 成 
了 数字 信和 号 预 处 理 问 题 。 在 拟 合 基线 之 前 ， 首 先 在 原始 数据 集中 假定 有 两 种 类 型 的 点 值 : BU 
“噪声 点 ”和 “信号 点 ”。 同 为 原始 信号 ,“ 噪 声 点 ”被 定义 为 信号 强度 在 xz « (y 一 30) 的 范 
围 内 的 无 规则 毛刺 点 ;而 “信号 点 ” 则 被 定义 为 信号 强度 值 在 zz 二 (一 3c) 的 范围 内 的 大 部 
分 数值 点 。 因 此 ， 剔 除 那些 “噪声 点 ”之 后 ， 处 理 过 的 信和 号 将 被 双边 指数 算法 平滑 。 在 这 个 
过 程 中 ,平滑 因子 a 能够 有 效 地 控制 该 平滑 程度 ， 使 得 平滑 结果 趋 近 背 景 信号 。 在 图 5-31 
中 ， 和 迭代 平滑 的 趋 近 过 程 被 清楚 地 展示 出 来 了 ， 实 线 1 代表 原始 信号 ， 实 线 3 代表 逐渐 和 逼 近 
的 过 程 ， 而 实 线 2 则 为 最 终 的 校正 结果 。 此 外 ， 平滑 因子 a 的 值 也 可 以 由 用 户 根据 不 同 种 类 
的 数据 集 做 出 相应 的 调整 ， 以 达到 更 好 的 校正 效果 。 

拟 合 终点 的 判定 ”如果 峰值 点 〈 高 强度 ) 和 噪声 点 〈 低 和 随机 强度 ) 可 以 被 精确 、 稳 健 
地 识别 ， 那 么 通过 双边 指数 平滑 算法 的 逐 级 迭代 过 程 就 能 很 好 地 拟 合 出 背景 基线 和 保留 信 










































































| 246 


分 析 化 学 手册 10 化 学 计量 学 





qk 














80F 
—1 
| 一? 
60F || 
| | 
Ki | L | 
| i GÓ | 
| - MEM 
20- | [ I| 
f | | 3 | 
APR -4 i \ | ii 
A ` A »- 
Or me ME ca 1 > 二 E — 
0 100 200 300 400 500 
样品 区 间 


展示 迭代 平滑 过 程 与 ATEB 算法 的 校正 结果 
1 一 未 校正 的 原始 信号 ; 2 一 最 终 的 校正 结果 ， 
3 一 随 着 闪 代 次 数 增加 拟 合 基线 逐次 逼近 的 校正 过 程 








号 。 因 此 ， 紧 接 在 平滑 处 理 的 过 程 之 后 ， 利 用 信号 的 二 阶 导 数 吻 除 信号 的 峰值 以 到 达 峰 识别 
的 效果 。 同 时 ,平滑 结果 的 二 阶 导数 在 数学 意义 是 函数 峰 的 平缓 程度 ， 用 在 化 学 信号 中 正好 
可 以 表示 背景 信号 的 平滑 程度 。 采 用 二 阶 导数 的 绝对 值 总 和 用 来 判定 拟 合 的 平滑 终点 ， 如 下 
UR: 





d, —2|Az;|—2]|ACGx)| 





Eg. bap sg eg | 





一 之 |z; 2g | 


随 着 拟 合 曲线 逐步 趋向 一 条 平稳 的 基线 ， 拟 合 背 景 的 平滑 度 像 一 个 递减 函数 一 样 越 来 越 
小 ， 并 慢 慢 趋 近 于 一 个 稳定 的 数值 。 一旦 递减 函数 的 4 值 趋 于 一 个 基本 稳定 的 数值 时 
(Cd -1 和 4 之 间 的 差 值 应 该 小 于 5.0X10)， 则 可 以 判定 整个 处 理 过 程 已 达到 最 后 的 终止 
点 。 正 如 图 5-32 所 示 ， 递 减 曲 线 表示 拟 合 基线 平滑 度 随 迭代 次 数 的 变化 趋势 〈 亦 即 d 的 值 
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递减 曲线 表示 : 基线 的 平滑 程度 CHU &,) 随 着 拟 合 过 程 中 迭代 次 数 
的 变化 而 发 生 的 相应 变化 ; 而 三 角形 则 表示 ATEB 算法 的 拟 合 终点 
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HET S ZO s 而 三 角形 代表 拟 合 终点 。 相 反 ， 如 果 递 减 本 数 的 值 并 不 接近 一 个 稳定 
的 值 而 是 变化 较 大 的 值 ， 这 就 意味 着 该 拟 合 基线 并 没有 达到 最 终 的 平滑 效果 ， 而 且 其 平滑 程 
度 也 不 能 满足 背景 的 需求 。 因 此 ， 程 序 将 在 上 一 次 平滑 结果 的 基础 上 ， 继 续 重 复 迭 代 先 前 的 
过 程 ， 直 到 达到 较 理 想 的 平滑 终点 。 更 形象 的 表示 ， 也 就 是 在 图 5-32 中 的 三 角 将 向 右 偏 移 
一 定位 置 才 为 终点 。 

为 方便 读者 能 更 好 地 理解 本 章 中 所 提出 的 ATEB 基线 校正 算法 ， 现 将 ATEB 算法 的 结 
构 流 程 图 附 于 本 节 的 最 后 部 分 ， 如 图 5-33 所 示 。 
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自动 双边 指数 平滑 基线 校正 算法 (ATEB) 
的 框架 与 程序 流程 图 


1. 计算 机 模拟 信号 及 ATEB 算法 与 其 他 算法 的 比较 

计算 机 模拟 数据 是 一 个 人 为 设 定 基 线 与 峰值 的 已 知 数据 集 ， 它 不 仅 是 用 来 测试 算法 可 人 靠 
性 与 稳定 性 的 有 效 测试 集 ， 同 时 也 是 用 来 比较 算法 优 劣 的 目标 已 知 集 。 对 于 ATEB 算法 的 
测试 工作 ， 采 用 包含 300 个 变量 数 的 线性 基线 和 600 个 变量 数 的 正 交 曲线 基线 数据 集 进 行 测 
试 。 通 过 ATEB 算法 校正 后 的 结果 如 图 5-34 (a) 与 (b) 所 示 ， 在 图 中 不 管 是 线性 基线 数 
据 还 是 曲线 基线 数据 都 被 成 功 地 扣 去 了 背景 基线 ， 而 这 一 点 正好 证 明了 该 算法 的 广泛 适用 
性 。 再 结合 图 5-31 中 的 逐次 允 近 过 程 ， 可 清楚 看 出 其 迭代 平滑 过 程 : 不管 是 在 线性 基线 的 
处 理 过 程 还 是 正 交 曲线 基线 的 处 理 过 程 中 ，ATEB 算法 都 只 需要 极 少 数 的 迭代 次 数 就 能 拟 合 
好 预期 的 基线 (详细 数据 可 参见 表 5-12 与 表 5-14) 。 换 言 之 ， 也 可 以 表述 为 ATEB 算法 能 
在 一 个 非常 短 的 处 理 时 间 内 达到 自动 收敛 的 目的 。 又 因为 计算 机 模拟 数据 是 人 为 预先 设 定 
的 ， 其 主要 内 容 就 是 线性 基线 与 曲线 基线 中 的 标准 高 斯 峰 ， 所 以 对 于 研究 工作 者 来 说 ， 模 拟 
数据 信号 峰 的 峰 高 也 就 是 已 知 的 ， 而 这 一 点 正好 可 以 被 用 来 测试 算法 的 准确 性 。 因 此 ， 采 取 
将 校正 前 后 的 同一 信号 峰 的 峰 高 值 与 已 知 预期 的 峰 高 进行 比较 的 处 理 方法 ， 达 到 测试 算法 准 
确 性 的 目的 ， 详 细 测 试 数据 见 表 5-12。 
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(a) (b) 

计算 机 模拟 数据 经 过 ATEB 算法 校正 的 结果 
(a) 线性 基线 ; (b) 线 基线 ; 

1 一 原始 模拟 数据 ，2 一 拟 合 基 线 ，3 一 相应 的 校正 结果 
































鉴于 这 些 模拟 数据 的 信号 峰值 预先 已 经 知道 ， 故 可 测试 不 同 的 基线 校正 算法 ， 用 以 比较 
各 种 算法 的 优 劣 程度 。 这些 算 法 不 仅 包 括 了 Cobas 提出 的 全 自动 基线 校正 程序 
(FABC)[58] Eilers 提出 的 不 对 称 最 小 二 乘 基线 校正 算法 CALS) 97 和 Z. Zhang 提出 的 
自 适应 迁 代 加 权 惩 罚 最 小 二 乘 算法 CairPLS) 92:932, ， 同 时 ， 还 加 入 了 由 Tinati 教授 提出 的 小 
波 变换 基线 漂移 扣除 算法 (baseline drift cancellation using wavelet transform，Wavelet)[99 。 在 
K 5-12 中 ， 分 别 列 出 了 包括 : ALS 算法 、FABC 算法 、airPLS 算法 、Wavelet 算法 和 
ATEB 算法 对 应 的 校正 结果 值 。 结 合 图 5-34 中 的 校正 结果 ， 能 清楚 地 看 到 在 线性 基线 与 曲 
线 基线 的 不 同 背 景 之 下 ATEB 算法 均 能 成 功 、 准 确 地 将 背景 干扰 剔除 掉 ， 这 也 从 侧面 印证 
该 型 算法 的 灵活 性 。 在 线性 基线 的 模拟 数据 中 ，ALS 算法 和 airPLS 算法 的 拟 合 结果 均 明 显 
不 如 FABC 算法 和 ATEB 算法 所 得 出 的 结果 ， 特 别 是 在 一 些 宽 峰 和 大 峰 的 处 理 上 不 能 令 人 
满意 。 又 与 FABC 算法 和 Wavelet 算法 进行 比较 ， 不 难 发 现 ， 本 章 中 的 ATEB SER LEE 
峰 与 尖峰 处 略 胜 一 筹 。 同 样 ， 在 曲线 基线 的 处 理 条 件 下 ，ATEB 算法 也 体现 出 了 其 优秀 的 校 
正 性 能 。 表 观 上 ，ATEB 算法 的 校正 效果 要 明显 地 优 于 ALS 算法 和 airPLS 算法 的 校正 结 
果 ， 特 别 是 在 重 麦 峰 的 细节 处 理 上 ， 如 图 5-34 所 示 。 根 据 表 5-12 的 校正 数据 ， 可 以 简要 概 
括 为 : 在 处 理 小 峰 的 情况 下 ATEB 算法 与 其 他 四 种 算法 的 处 理 能 力 旗 鼓 相当 ， 但 是 在 处 理 
KiE SERIKI DLF ATEB 算法 就 体现 出 其 明显 的 优势 了 ， 而 这 一 点 正 是 线性 基线 与 曲 
线 基 线 干 扰 背 景 的 主要 影响 因素 ， 特 别 是 实际 应 用 中 尤为 明显 ， 例 如 多 元 分 析 。 


计算 机 模拟 数据 集 经 过 不 同 算法 的 基线 校正 结果 以 及 预测 峰 高 值 






















































































lg 高 
基线 类 型 峰 序 号 " : = " 
未 校正 期 望 值 ALSO? FABC? airPLS? Wavelet® ATEB® 
1 57.01 50. 00 50. 55 50. 44 50. 36 50. 45 50. 34 
ibis 2 40. 64 30. 00 29.06 29.64 29.34 30. 21 29. 79 
a 3 86. 29 70. 00 68. 42 69. 86 68. 17 69. 01 60. 31 
4 63. 85 40. 00 40. 21 40. 06 40. 09 40. 11 39. 95 
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E 
峰 高 
基线 类 型 峰 序 号 
未 校正 期 望 值 ALS? FABC? airPLS? Wavelet? | ATEB® 
1 49. 95 40. 00 41. 06 40. 83 40. 68 40. 70 40. 73 
2 124. 50 120. 00 119. 23 119. 08 119. 68 119. 75 119. 70 
ái 3 29. 19 30. 00 27. 92 27.89 28. 89 27. 80 29. 23 
4 77. 89 80. 00 77.21 76.23 78. 89 77. 85 79.13 
5 23. 95 30. 00 27. 43 27.56 28. 55 28.12 28. 35 
5 80. 83 90. 00 90. 08 88. 88 90. 15 89. 02 90. 16 
(D 对 于 ALS 算法 ， 相 关 参 数 设 定 为 : A—10. p—10 7. d=2, 
© 对 于 FABC 算法 ， 相 关 参 数 设 定 为 : A=10, a=10, 
© 对 于 airPLS 算法 ， 惩罚 系数 设 定 为 : 4 一 8。 
CD 对 于 Wavelet 算法 ， 相 关 参 数 设 定 为 : h—10. 1—8. 
© 对 于 ATEB 算法 ， 参 数 平滑 因子 被 设 定 为 一 0. 923, 

















因子 分 析 法 (factorial method) 是 一 种 常 被 应 用 于 实验 设计 中 的 分 析 手 段 ， 在 进行 
ATEB 算法 校正 稳定 性 的 测试 中 将 其 引入 [85 。 通 过 使 用 在 不 同 分 析 因素 变化 情况 下 的 标准 
纯 模 拟 分 析 信 和 号 与 校正 后 的 结果 数据 进行 相似 度 对 比 ， 从 而 判断 校正 后 的 结果 是 否 具 有 合理 
性 与 稳定 性 。 正 如 在 表 5-13 中 所 列 出 的 数据 ， 能 够 清楚 看 到 随 着 不 同 因子 的 变化 其 校正 后 


的 相似 度 值 也 随 之 发 9 

















与 高 度 的 增加 ，ATEB 算法 的 校正 效果 越 来 越 好 了 。 

对 比 第 1 组 与 第 3 组 、 第 3 组 与 第 4 组 、 第 4 组 与 第 5 组 的 相似 度 值 ， 不 难 发 现 噪声 水 
平 、 模 拟 基 线 外 形 、 峰 高 都 会 或 多 或 少 地 影响 到 最 终 校正 的 效果 。 但 是 ， 由 于 这 三 个 对 比 组 
(和 3,，3 和 4, 4 和 5) 的 绝对 偏差 非常 小 ， 在 分 析 中 还 是 可 以 被 接受 的 。 因 此 ， 可 以 做 出 
简要 的 论述 ， 信 号 通过 ATEB 算法 的 预 处 理 后 ， 来 自 噪声 水 平 、 模 拟 基线 类 型 和 峰 高 度 的 


影响 将 在 


正 的 结果 
组 进行 对 比 时 (第 1 组 为 标准 组 与 第 5 组 对 比 )，0. 0024 的 偏差 值 在 高 强度 噪声 水 平 、 曲 线 


背景 基线 和 
的 稳定 性 测试 工作 可 以 证 明 出 : ATEB 算法 是 一 种 非常 有 效 、 非 常 实 月 
即使 是 对 于 具有 不 同 峰 高 、 基 线 类 型 和 















































以 合 、 校 正 后 的 结果 值 中 被 准确 、 可 靠 地 剔除 掉 ， 并 不 会 产生 明显 的 差异 、 限 制 





E 变化。 根据 第 1 组 与 第 2 组 的 对 比 情况 ， 可 以 看 到 随 着 信号 峰 的 强度 
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甚至 影响 分 析 信 和 号 的 准 丰 




















1 超过 1. 5 倍 峰 高 的 情况 下 也 是 可 以 被 接受 的 。 总 的 说 来 ， 使 有 
日 的 数据 预 处 理工 上 
失声 水 平 的 信号 ， 它 都 能 灵活 可 靠 地 处 理 好 。 


























性 。 尤 其 是 ， 考 虑 到 标准 组 与 所 有 变化 因子 均 不 同 的 差异 


独立 因子 分 析 方 法 
H. 
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因子 分 析 法 的 相似 度 值 

p(x)9 

组 号 1(x)® n(x)® 相似 度 @ 
峰 1 峰 2 峰 3 

1 50 30 70 线性 低 0. 9989 
2 80 50 120 线性 低 0. 9991 
3 50 30 70 线性 高 0. 9968 
4 50 30 70 曲线 高 0. 9975 
5 80 50 120 曲线 高 0. 9965 

O p (x) 代表 前 三 个 纯 高 斯 峰 的 峰 高 值 


Qn GO 代表 的 计算 机 模 





OQ 1 Go 代表 的 计算 机 拟 合 的 标准 基线 (包括 线性 背景 和 曲线 背景 )。 
以 背景 的 随机 噪声 强度 水 平 〈 包 括 低 强度 水 平和 高 强度 水 平 ) 。 








@ 表示 








在 使 


用 不 同 分 析 因 了 
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F 的 情况 下 标准 纯 模 拟 信 号 与 校正 后 的 结果 信号 之 间 的 相似 度 。 
的 峰 高 值 、 基 线 类 型 和 噪声 水 平 来 进行 生成 信号 与 标准 信号 的 相似 度 比 较 。 
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2. 基质 辅助 激光 解吸 电离 飞行 时 间 质 谱 校正 谱 图 与 分 类 (MALDI-TOF-MS) 

为 了 验证 文中 的 ATEB 算法 对 于 高 通 量 大 数据 的 处 理 能 力 ， 以 及 其 对 于 高 分 辨 数据 的 
可 靠 性 ， 将 实验 所 得 的 MALDI-TOF-MS 数据 进行 测试 与 分 析 。 采 用 受到 肝癌 病毒 感染 和 
未 受到 肝癌 病毒 感染 的 肝 细 胞 数据 进行 分 析 。 经 过 ATEB 算法 的 校正 处 理 之 后 ， 所 有 46 个 
不 同 个 体 肝 细胞 样本 的 光谱 图 均 获得 了 有 效 校正 。 在 此 过 程 中 ， 为 保证 不 同 数 据 类 型 同类 样 
本 校正 的 同一 性 ， 设 定 其 所 有 待 校正 数据 的 校正 参数 均一 致 并且 设 定 平滑 因子 为 a 二 
0.930。 在 图 5-35 中 ， 分 别提 取 了 46 个 样本 中 的 2 个 不 同类 别 的 样本 数据 图 作为 各 类 代表 
进行 展示 。 为 了 能 更 清楚 地 观察 每 个 样品 ， 将 这 两 个 代表 样品 的 光谱 图 分 别 展示 在 图 5-35 
(a) 和 b 中 ， 其 中 每 个 分 隔 图 中 都 分 别 包 含 了 两 组 原始 信号 和 两 组 校正 后 的 结果 信号 ， 
图 中 下 部 的 实 线 1 代表 受到 肝癌 病毒 感染 的 肝 细 胞 样本 信号 ， 而 上 方 实 线 2 代表 未 受到 肝 瘤 
病毒 感染 的 肝 细 胞 样本 信号 。 此 外 ， 人 们 还 可 以 对 比 观 察 在 图 5-35 (bo. 中 两 个 对 应 相同 样 
本 的 校正 结果 。 为 更 进一步 地 分 析 并 研究 ATEB 算法 对 校正 结果 分 类 能 力 的 影响 程度 ， 我 
们 采用 了 主 成 分 分 析 (PCA) 方法 与 随机 森林 (random forest, RF) 算法 ， 并 进行 更 高 一 
级 的 聚 类 分 析 。 
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(a) (b) 


肝 细 胞 样本 的 MALDI-TOF-MS 原始 谱 图 数据 及 其 校正 结果 
(a) 未 校正 的 原始 谱 图 数据 集 (1 表示 受 感染 的 样本 及 拟 合 基准 线 ，2 表示 未 受 感 染 的 样本 ); 
(b) 在 Ca) 图 中 对 应 数据 校正 后 的 结果 谱 图 (1 表示 受 感染 的 样本 ，2 表示 未 受 感 染 的 样本 ) 











CD 主 成 分 分 析 法 (PCA) ”在 进行 主 成 分 分 析 之 前 ， 首 先 将 两 类 样本 ( 受 感染 和 未 受 
感染 ) 的 原始 数据 集 与 校正 后 的 数据 集 分 别 进行 平均 光谱 的 均值 中 心 化 处 理 ， 再 用 相应 的 最 
大 值 进行 归 一 化 处 理 。 然 后 ， 将 均值 归 一 化 后 的 两 类 原始 数据 合成 一 个 组 合 和 矩阵 进行 主 成 分 
分 析 。 并 且 提 取 其 第 一 、 二 主 成 分 的 含量 以 及 方差 比 ， 陈 列 于 图 5-36 GO 中 。 在 未 作 校 正 
的 数据 分 类 图 中 ， 发 现 受 感染 的 样本 O 和 未 受 感染 的 样本 GO 完全 混合 在 了 一 起 难以 分 
辨 ,而 这 无 疑 是 一 种 非常 坏 手 的 结果 。 同 时 ， 主 成 分 分 析 法 同样 被 应 用 到 经 均值 中 心 化 、 归 
一 化 的 校正 数据 中 。 在 图 5-36 (b) 中 ， 展 示 了 经 过 ATEB 算法 校正 后 的 数据 在 主 成 分 分 析 
中 的 第 一 、 二 主 成 分 分 布 图 。 能 清晰 地 看 到 ， 在 主 成 分 模式 空间 中 两 类 样本 的 分 类 情况 得 到 
了 明显 的 提高 ， 并 且 仅 前 两 个 空间 组 分 的 方差 之 和 就 达到 了 90 外 以上， 足以 表明 使 用 PCA 
做 模式 识别 的 可 靠 性 。 其 结果 表明 ， 在 同一 分 类 条 件 下 得 分 值 与 方差 值 都 获得 显著 性 提高 的 
校正 结果 可 以 更 加 清晰 地 解释 两 类 样本 的 差异 性 ， 以 及 不 同样 本 之 间 的 分 类 特征 。 除 此 之 
外 ， 对 于 分 类 模型 重心 的 确定 以 及 所 需 差 异 特征 点 的 区 分 都 会 变 得 更 加 容易 ， 而 这 主要 归功 
于 ATEB 算法 的 灵活 运用 。 

(2) 随机 森林 分 析 法 (RF) ”考虑 到 高 分 辨 大 型 数据 在 高 维 数据 空间 中 的 分 类 与 聚 类 
问题 确实 比较 棘手 ， 并 且 ， 为 了 能 更 加 直接 和 更 方便 地 观察 到 模式 空间 中 的 相似 性 矩阵， 有 
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(a) (b) 
区 下 于 ”肝癌 病症 中 肝 细 胞 样本 的 MALDI-TOF-MS 数据 经 过 PCA 的 分 类 情况 图 
(a) 未 经 任何 预 处 理 过 程 ， 受 感染 (0) 和 未 受 感染 (A) 样本 的 第 一 、 二 主 成 分 图 ; 
(b) 经 过 ATEB 算法 校正 过 后 ， 同 样 是 受 感染 (0) 和 未 受 感染 CA) 样本 的 第 一 、 二 主 成 分 图 




















监督 的 随机 森林 (Random forest, RF) 算法 i[%~%] 同 样 被 应 用 到 两 类 46 个 样本 的 MALDI- 
TOF-MS 数据 分 类 中 。 整 个 分 析 过 程 ， 首 先 优化 了 产生 预测 模型 随机 森林 分 类 器 的 两 个 参 
数 ， 包 括 期 望 分 类 树 的 数目 (tree) 以 及 使 得 各 棵 树 增长 的 变量 数目 (mtry)。 其 次 ， 在 确 
定 了 这 两 个 参数 后 (tree —10000 与 mtry —190), 在 MatlabTM 中 使 用 随机 森林 分 类 算法 分 
别 对 原始 信号 与 校正 后 两 类 数据 样本 的 合 矩 阵 进行 分 类 分 析 ， 其 他 数据 预 处 理 的 中 心 化 和 归 
一 化 方法 跟 主 成 分 分 析 一 样 。 正 如 图 5-37 (a) 所 示 ， 数 字符 号 “1” 代 表 着 受 感染 的 样本 信 
号 而 数字 符号 “2” 代 表 着 未 受 感 染 的 样本 信号 ， 能 从 中 清楚 地 观察 到 受 感染 的 样本 数据 和 
未 受 感染 的 样本 数据 在 多 维 空间 中 产生 了 明显 的 混合 ， 这 意味 着 未 经 校正 的 原始 数据 完全 达 
不 到 需要 的 分 类 效果 。 紧 随 上 一 步 的 分 析 过 程 ， 同 样 的 有 监督 型 模式 识别 算法 一 一 随机 森林 
也 应 用 到 了 通过 ATEB 算法 校正 背景 后 的 结果 数据 中 。 在 图 5-37 (bo 中 ,使 用 同样 参数 的 
聚 类 结果 呈现 出 了 经 ATEB 算法 校正 后 数据 的 分 类 结果 (ntree —10000 & mtry 二 190)， 能 
观察 到 两 类 样本 (数字 “1” 代 表 受 感染 的 样本 ,数字 “2” 代 表 未 受 感染 样本 ) 一 个 很 好 的 
分 离 效果 ， 而 这 种 分 离 效 果 是 在 校正 之 前 完全 达 不 到 的 。 经 过 随机 和 森林 的 分 析 过 程 ， 在 多 维 
空间 技术 的 引导 下 ， 邻 近 和 矩阵 的 图 形 可 视 化 研究 呈现 出 一 种 非常 清晰 的 分 类 状态 ， 同 时 ， 两 
类 样本 之 间 的 相似 程度 也 能 通过 其 分 布 距 离 进行 有 效 的 测定 。 因 此 可 推断 出 ， 虽 然 在 受 感染 
的 样本 和 未 受 感染 的 样本 之 间 已 经 存在 了 一 定 的 相关 性 ， 但 是 通过 ATEB 算法 对 大 数据 集 
进行 预 处 理 之 后 ， 其 细小 的 差异 也 能 被 放大 ， 从 而 被 发 现 。 

结合 主 成 分 分 析 方 法 和 随机 森林 算法 的 两 种 分 类 效果 图 ， 不 难得 出 ATEB 算法 确实 具 
有 很 好 的 校正 能 力 。 通 过 ATEB 算法 的 处 理 ， 校 正 后 相同 类 型 的 谱 图 具有 更 好 的 紧凑 性 ， 
也 更 靠近 标准 谱 图 。 此 外 ， 主 成 分 模式 空间 中 紧密 程度 与 聚合 程度 的 提高 在 一 定 程度 下 ， 可 
以 使 得 校正 结果 的 聚 类 情况 和 分 类 情况 获得 相应 的 提高 。 总 的 来 说 ，ATEB 算法 能 够 有 效 地 
校正 漂移 的 基线 ， 并 同时 保存 好 其 主要 信息 ， 不 发 生 丢 失 ， 而 这 一 点 对 于 模式 识别 的 高 级 分 
析 方 法 来 说 具有 极其 重要 的 意义 。 

3. 核磁 共振 数据 集 的 校正 光谱 和 分 析 结果 

核磁 共振 (NMR) 数据 同样 作为 高 分 辨 、 高通 量 数据 一 直 充 斥 在 各 个 学 科 的 科学 研究 
中 。 本 节 中 ， 采 集 冠 状 动脉 心脏 疾病 患者 的 血清 样本 ， 对 其 做 核磁 共振 分 析 获 得 特征 谱 图 进 
fr ATEB 算法 的 研究 测试 。 与 此 同时 ， 这 些 校正 后 的 结果 也 采用 无 监督 的 主 成 分 分 析 方 法 
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(a) (b) 


肝癌 病症 中 肝 细胞 样本 的 MALDI-TOF-MS 数据 经 过 随机 森林 算法 (RF) 的 分 类 情况 图 
Ga) 未 经 任何 处 理 的 数据 ;(b) 经 过 ATEB 算法 校正 的 数据 
图 (a) 与 (b) 均 表 示 有 监督 的 随机 森林 算法 在 参数 为 ntree — 10000. mtry — 190 
的 学 习 情况 下 ， 对 受 感染 (数字 符号 D 和 未 受 感 染 (数字 符号 2) 样本 的 分 类 情况 





进行 进一步 的 分 析 ， 分 析 结 果 如 图 5-38 所 示 。 将 图 5-38 中 的 (a) 和 (b) 进行 比较 ， 能 很 
清楚 地 观察 到 这 些 核磁 谱 图 的 原始 数据 和 校正 后 的 数据 图 ， 并 且 ， 其 清晰 的 校正 结果 从 另 一 
方面 也 验证 了 即使 是 处 理 高 分 辨 大 型 数据 ，ATEB 算法 对 于 背景 校正 的 灵活 性 与 可 靠 性 也 能 
很 好 地 表现 出 来 。 
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(a) (b) 


冠 心病 患者 血浆 样本 的 核磁 共振 (NMR) 数据 及 其 校正 结果 
Ca) 不 同 背 景 值 影响 下 的 10 个 原始 NMR 数据; (D. 经 过 ATEB 算法 校正 后 与 (a) 图 中 对 应 的 NMR 数据 





正如 图 5-38 (bo 中 所 示 ， 通 过 ATEB 算法 校正 后 ， 可 以 很 容易 地 从 这 10 个 谱 图 中 发 
现 其 相同 类 别 特征 吸收 峰 的 相似 性 特点 。 此 外 ， 主 成 分 分 析 方 法 也 对 校正 后 的 结果 进行 了 有 
效 性 评估 ， 见 图 5-39 (a)。 根 据 研究 发 现 ， 常 用 的 诸如 数值 微分 的 处 理 方法 就 能 缓慢 地 扣除 
漂移 背景 的 影响 效果 ， 并 能 很 好 地 测试 样本 的 可 靠 性 。 由 于 这 些 样 品 都 是 平行 实验 样本 ， 理 
论 上 来 说 ， 如 果 忽 略 掉 背 景 因 素 的 影响 ， 在 主 成 分 空间 中 它们 各 自 将 位 于 极其 靠近 的 位 置 。 
因此 ， 分 别 对 原始 的 核磁 数据 和 校正 后 的 核磁 数据 进行 一 阶 数值 微分 预 处 理工 作 ， 然 后 观察 
其 处 理 结果 在 主 成 分 空间 中 的 分 布 情况 确定 其 有 效 性 。 在 图 5-39 (GO 中 ,三 角形 符号 O) 
代表 经 一 阶 微分 处 理 后 的 原始 1H NMR 信号 ， 相 应 颜色 的 加 号 (+) 表示 经 一 阶 微分 处 理 
后 的 校正 数据 。 图 中 ， 通 过 一 阶 微分 预 处 理 方 法 在 主 成 分 空间 中 表现 出 来 的 良好 匹配 性 也 暗 
示 着 ，ATEB 算法 在 校正 数据 的 背景 干扰 时 没有 将 原始 数据 中 的 重要 信息 丢失 。 此 外 ， 由 于 
所 有 的 这 10 个 样品 都 是 具有 相似 性 的 平行 实验 样本 ， 因 此 研究 工作 将 针对 原始 样本 与 校正 
样本 之 间 的 紧凑 性 和 聚集 性 关系 进行 进一步 分 析 。 在 图 5-39 (bo 中 ， 同 样 三 角形 符号 OO 
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代表 未 经 ATEB 算法 处 理 过 的 原始 HNMR 信号 在 主 成 分 空间 中 的 分 布 ， 相 应 颜色 的 加 号 
Cr) 则 表示 经 ATEB 算法 校正 后 的 结果 数据 。 在 第 一 主 成 分 空间 的 分 布 方向 上 ， 其 主要 涵 
义 是 传递 样本 之 间 的 差异 性 ， 而 在 图 5-39 a) 中 PC; 的 样本 总 体 方差 值 就 达到 了 9495. X 
足以 表明 在 此 类 样本 中 其 样本 之 间 差 异性 对 分 析 结 果 的 影响 之 大 。 同 时 ， 在 图 5-39 (bo 中 
还 注意 到 ， 三 角形 与 加 号 在 主 成 分 空间 中 表现 出 了 显著 的 聚集 程度 ， 特 别 是 在 第 一 主 成 分 分 
布 空间 上 的 位 移 程 度 ， 而 这 也 意味 着 ， 通 过 ATEB 算法 的 校正 之 后 血清 样本 获得 了 更 好 的 
聚 类 效果 。 
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(a) (b) 
经 ATEB 算法 校正 前 后 冠 心病 患者 血浆 样本 核磁 共振 (NMR) 数据 的 分 析 情况 











(a) 经 过 ATEB 算法 校正 前 (A), Jet: (十 )，!H NMR 数据 在 一 阶 微分 预 处 理 情 况 下 的 第 一 、 二 主 成 分 分 布 图 ; 
(b) 经 ATEB 算法 校正 前 (A)、 后 (CH) W H NMR 数据 ,在 主 成 分 分 析 (PCA) 过 程 中 ,第 一 、 二 主 成 分 的 分 布 情况 

















根据 上 述 分 析 不 难 证 实 ， 在 第 一 主 成 分 空间 方向 上 NMR 原始 信号 的 显著 性 变化 ， 在 很 
大 程度 上 可 以 归 因 于 谱 图 与 谱 图 之 间 的 背景 干扰 得 到 了 明显 的 校正 。 而 本 文中 所 提出 的 
ATEB 算法 则 能 够 在 一 系列 核磁 数据 中 很 好 地 剔除 掉 这 种 背景 干 捧 ， 并 保证 重要 、 有 效 信 息 
的 完整 性 。 

4. 调整 oc 获得 更 好 的 拟 合 基线 

实际 上 ， 为 了 在 不 同 的 实验 数据 之 间 获 得 更 好 的 拟 合 基线 ，xu 参数 值 的 设 定 应 该 是 能 根 
据 不 同类 型 的 光谱 数据 差异 而 被 用 户 灵 活 调节 的 ， 而 并 非 计算 机 程序 (a-0.95) 中 存在 的 
初始 默认 值 。 这 样 一 来 ， 所 获得 的 校正 基线 才 更 加 具有 合理 性 ， 也 更 加 符合 不 同 分 析 工 作者 
的 不 同 需求 。 由 于 a 的 变化 范围 只 能 是 0~1， 早期 提出 的 一 般 指 数 平滑 算法 将 难以 满足 高 
通 量 数 据 基线 拟 合 过 程 中 的 预 处 理工 作 ， 有 些 数据 的 处 理 效 果 甚 至 还 不 如 一 些 经 典 算法 。 正 
如 上 文 所 述 ，Brown[99 和 Holtts 中 在 他 们 的 研究 工作 中 发 现 ， 在 0~1 之 间 搜 索 最 佳 平滑 因 
T a 的 过 程 会 对 整个 平滑 效果 产生 极 大 的 影响 。 如 果 平 滑 因子 a 过 于 接近 1， 拟 合 基线 将 会 
超过 期 望 值 ， 过 于 平坦 而 丢失 部 分 信息 ; 相反 ， 如 果 平 滑 因 子 a 太 接 近 0， 拟 合 基线 将 会 过 
于 灵活 ， 包 含 几乎 所 有 的 信号 峰 (包括 一 些 明 显 的 干扰 峰 )， 达 不 到 扣除 干扰 背景 的 效果 。 
这 一 点 正 是 为 什么 平滑 因子 a 过 大 、 过 小 的 变化 会 产生 校正 基线 如 此 显著 性 差异 的 原因 ， 换 
句 话 来 说 ， 也 正 是 这 一 点 给 了 人 研究 人 员 根 据 不 同 数据 类 型 手动 调整 所 需 校正 效果 的 条 件 。 通 
常情 况 下 ， 可 以 通过 折 半 查找 的 方法 查 出 相应 类 型 数据 的 最 优 平滑 因子 。 总 的 说 来 ，ATEB 
算法 的 参数 值 不 仅 可 以 由 计算 的 默认 设置 自动 控制 ， 而 且 可 以 凭借 分 析 工 作者 的 直观 经 验 来 
手动 调节 ， 而 整个 的 这 套 过 程 完全 不 需要 一 些 全 局 优化 方法 来 优化 ， 灵 活 便捷 。 

5. 处 理 速度 与 推广 

正如 上 节 中 所 述 ， 将 对 包含 不 同 变量 数目 的 计算 机 模拟 数据 、MALDITOF-MS 数据 、 
H NMR 数据 和 GC-TOF-MS 数据 进行 ATEB 算法 的 速度 测试 。 与 此 同时 ，ATEB 算法 将 
在 相同 数据 集 测试 条 件 下 与 男 外 三 种 不 同 的 算法 进行 速度 对 比 ， 它 们 包括 ALS 算法 、 
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FABC 算法 和 airPLS 算法 。 通 过 不 同 变量 数 测试 集 测 试 ， 每 种 算法 对 应 不 同 测试 集 的 执行 
时 间 均 被 列 于 表 5-14 中 。 



































AN 不 同 算法 与 不 同类 型 数据 的 处 理 执行 时 间 单位 : s 
算 法 模拟 数据 集 色谱 图 MALDI-TOF-MS 信和 号 H NMR 信和 号 
(900 个 变量 ) (4000 个 变量 ) (36802 个 变量 ) (63483 个 变量 ) 
ALS 0.0608 0.0885 0. 5367 1. 4529 
FABC 0. 0284 0.0669 0. 3643 1. 5160 
airPLS 0. 0213 0.0460 0. 2413 0. 5185 
ATEB 0. 0172 0. 0296 0. 2283 0. 3662 
ik. 使 用 不 同 变量 数目 的 数据 集 (包括 计算 机 模拟 数据 、GC-TOF-MS、MALDI-TOF-MS 和 H NMR 信号 ) 对 
ATEB 算法 进行 测试 ， 同 时 通过 四 种 不 同 算法 (ALS、FABC、airPLS、ATEB) 校正 的 执行 时 间 进 行 比较 。 此 外 ， 从 表 
格 中 的 数据 值 也 可 以 推断 出 ， 使 用 ATEB 算法 时 变量 数目 和 执行 时 间 (s) 之 间 的 关系 。 























从 表 5-14 可 以 看 到 ，ATEB 算法 要 明显 要 快 于 其 他 的 算法 ， 特 别 是 在 较 大 的 数据 集中 。 
注意 到 ATEB 算法 的 执行 速度 的 确 相 当 惊 人 : 仅仅 消耗 0. 3662s 就 能 将 一 个 具有 63483 个 变 
量 数 的 数据 校正 完毕 。 同 比 其 他 算法 在 相应 数据 上 所 消耗 的 时 间 (例如 ，ALS 算法 的 
1. 4529s， 而 airPLS 达到 1. 5160s)，ATEB 算法 的 优势 是 显而易见 的 。 尽 管 处 理 速 度 的 细微 
优势 (0. 01 一 0. 05s 的 差距 ) 在 小 型 数据 集中 看 似 难 以 察觉 ， 但 是 ， 一 旦 面临 高 分 辨 大 型 数 
据 集 的 处 理工 作 ， 该 算法 的 优越 性 则 立即 得 到 体现 。 与 此 同时 ， 根 据 表格 5-14 中 的 内 容 做 
了 更 进一步 的 研究 ， 将 变量 个 数 与 执行 时 间 的 相互 关系 进行 了 详细 分 析 。 发 现 变量 个 数 与 执 
行 时 间 之 间 存 在 着 非常 好 的 线性 关系 ， 其 线性 相关 度 也 达到 了 99. 93% 的 水 平 ， 详 细 情 况 示 
于 图 5-40。 很 显然 ， 随 着 变量 数目 的 增加 ， 相 应 的 执行 时 间 也 会 呈 线 性 趋势 的 增加 。 变 量 关 
目 与 整个 执行 时 间 之 间 的 精确 线性 关系 ， 从 另 一 方面 也 确保 了 即使 ATEB 算法 面 对 更 大 变 
量 数 的 数据 集 也 能 保持 良好 的 执行 性 能 。 
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第 五 节 色谱 分 析 信 号 的 漂移 校准 方法 


在 色谱 分 析 中 ， 引 起 色谱 峰 保 留 时 间 漂 移 的 原因 多 种 多 样 ， 简 单 归纳 起 来 可 有 如 下 几 
种 : 中 在 高 效 液 相 色谱 中 ， 由 于 固定 相 的 降解 ， 其 中 特别 是 硅胶 的 低 稳定 性 ， 在 高 pH 值 情 
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况 下 硅胶 支撑 的 不 稳定 ， 以 及 由 于 水 在 极 性 流动 相 中 引起 C18 柱 键 合 相 的 裂解 等 ， 都 可 能 
引起 色谱 峰 保留 时 间 的 漂移 ; @@ 由 于 温度 和 压力 的 变化 引起 的 流动 相 中 化 学 组 成 的 微小 变 
化 ; 鲜 检 测 咒 的 波长 的 漂移 ;由 色谱 柱 的 过 载 及 某 些 化 合 物 的 过 量 ; 包 可 能 的 分 析 物 之 间 的 
相互 作用 ; @ 仪 器 的 本 和 映 的 一 些 波动 等 。 这 些 因素 都 可 以 引起 不 同样 本 和 时 间 测 出 来 的 色谱 
指纹 图 谱 中 色谱 峰 产 生 保 留 时 间 的 漂移 。 这 样 ， 不 同 实验 时 间 、 地 点 、 仪 器 设备 所 测 得 的 色 
谱 指 纹 图 谱 往往 会 在 一 定 程度 上 导致 色谱 峰 发 生 一 定 的 波动 和 色谱 保留 时 间 的 漂移 ， 这 就 给 
色谱 指纹 网 谱 的 识别 与 鉴定 带 来 不 便 ， 进 而 影响 对 色谱 指纹 图 谱 的 进一步 模式 识别 分 析 ， 如 
不 做 必要 的 仪器 系统 误差 的 校准 ， 还 可 能 导致 错误 结论 [1 。 在 图 5-41 中 示 出 了 一 个 色谱 
间 纹 图 谱 进 行 色 谱 峰 校准 的 例子 。 从 图 5-41 可 以 看 出 ， 色 谱 峰 校准 实际 就 是 将 不 同色 谱 指 
纹 图 谱 中 相同 化 合 物 一 一 对 应 起 来 。 
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0 50 100 150 200 250 300 350 400 450 
色谱 扫描 点 
(b) 
色谱 指纹 图 谱 (1) 和 色谱 指纹 图 谱 (2) 
在 采用 谱 峰 校准 前 (a) 和 谐 峰 校准 后 (b) 的 比较 

在 过 去 的 十 几 年 中 ， 针 对 色谱 保留 时 间 的 校准 ， 化 学 计量 学 发 展 了 不 少 方法 [101-113] 。 
一 些 方法 主要 是 利用 加 内 标 进 行 校准 或 是 通过 找到 一 些 共同 的 标志 化 合 物 来 进行 -102~104]。 
在 文献 [105—107] 中 ， 则 主要 是 通过 优化 方法 ,使 目标 色谱 指纹 图 谱 与 待 校 的 色谱 指纹 图 
谱 的 相关 系数 达到 最 大 化 而 完成 保留 时 间 漂 移 的 校准 。 一 般 说 来 ， 如 果 待 校准 的 多 个 色谱 指 
纹 图 谱 较 为 相似 ， 这 类 方法 的 计算 效率 将 很 高 ， 且 容易 实现 自动 化 。 但 是 ， 如 果 待 校准 的 多 
个 色谱 指纹 图 谱 相 差 较 大 ， 这 类 仪 基于 使 目标 色谱 指纹 图 谱 与 待 校 的 色谱 指纹 图 谱 的 相关 系 
数 达 到 最 大 化 的 方法 有 时 可 能 产生 错误 结果 ， 这 也 值得 引起 注意 。 最 近 ， 由 于 高 通 量 检测 在 
系统 生物 学 的 研究 中 得 到 快速 发 展 ， 所 以 ， 有 关 色 谱 指 纹 图 谱 的 校准 算法 的 研究 仍然 
很 多 [108~113] 。 

在 新 近 发 展 的 这 些 方法 之 中 ， 可 粗略 地 分 为 两 类 ， 一 类 仍 是 基于 使 目标 色谱 指纹 图 谱 与 
待 校 的 色谱 指纹 图 谱 的 相关 系数 达到 最 大 化 ， 其 主要 对 象 是 针对 一 维 色谱 信息 的 。 这 些 方法 
在 使 相关 系数 达到 最 大 的 基础 上 ， 进 一 步 有 效 利用 方差 特征 分 析 、 卡 尔 曼 跟踪 或 是 主 成 分 分 
析 结 果 的 信息 ， 使 算法 得 到 进一步 改善 L108~110]。 这 些 方法 已 被 应 用 于 多 种 色谱 数据 ， 如 
HPLC, GC, CE 等 的 色谱 峰 保留 时 间 的 校准 ， 较 易于 实现 自动 谱 峰 校准 ; 而 男 一 类 方法 则 
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主要 是 针对 联 用 色谱 而 设计 的 ， 其 主要 思路 是 基于 充分 利用 联 用 色谱 中 的 光谱 (UV 光谱 ) 
或 波谱 (质谱) 的 信息 ， 同 时 利用 同类 色谱 柱 中 色谱 保留 流出 顺序 和 组 分 波谱 信息 ， 并 结合 
化 学 计量 学 中 多 元 分 辨 方法 进行 谱 峰 校准 DE， 这 类 方法 效果 较 好 ， 但 不 易 实现 自动 谱 
峰 校准 ， 计 算 量 也 随 之 增 大 。 

本 节 将 对 这 两 类 方法 都 给 予 必要 介绍 。 


一 、 基 于 小 波 模 式 匹配 及 微分 进化 方法 的 自动 色谱 谱 峰 校准 方法 


如 前 所 述 ， 对 于 一 些 基于 使 目标 色谱 指纹 图 谱 与 待 校 的 色谱 指纹 图 谱 的 相关 系数 达到 最 
大 化 且 易 实现 自动 谱 峰 校准 的 方法 ， 主 要 是 依赖 优化 方法 进行 。 现 已 有 较 多 方法 提出 ， 如 
Isenhour 等 在 20 年 前 就 提出 了 时 间 径 向 校准 (time warping) 方法 I] ， 它 可 在 色谱 保留 时 
间 轴 上 进行 舒展 或 压缩 (stretch/squeeze) 的 谱 峰 校准 。10 年 后 ， 两 个 较为 实用 的 自动 色谱 
谱 峰 校准 方法 相继 提出 ， 一 个 是 基于 动态 规划 的 ， 名 为 动态 时 间 径 向 校准 法 (dynamic time 
warping，DTWD)L1] ,一 个 名 为 相关 优化 径 向 校准 法 (correlation optimized warping, 
COW):?U, Eilers 在 此 基础 之 上 ， 对 径 向 校准 函数 进行 研究 ， 也 提出 了 一 个 名 为 参数 时 间 
径 向 校准 法 (parametric time warping, PTW)H1:10~87] 。 从 一 些 对 它们 进一步 改进 或 讨论 
的 文章 中 可 以 看 出 ， 这 三 个 方法 在 色谱 分 析 中 得 到 了 较为 广泛 的 应 用 0105) 。 

下 面 要 介绍 的 是 一 个 新 近 由 深 逸 曾 研究 小 组 提出 的 一 个 新 方法 ， 名 为 基于 小 波 模式 匹配 
及 微分 进化 的 自动 色谱 谱 峰 校准 方法 (aligns chromatograms by differential evolution. 
alignDE)。 本 法 的 思路 是 先 经 小 波 模式 匹配 ， 继 利用 微分 进化 优化 法 对 谱 峰 漂移 进行 校准 。 
为 消除 背景 漂移 、 色 谱 肩 峰 和 重合 色谱 峰 簇 对 色谱 指纹 图 谱 相 关 性 的 影响 ， 对 于 它们 也 在 算 
法 中 给 予 了 特殊 考虑 。 此 外 ， 为 消除 不 同色 谱 仪 器 间 采 样 时 间 点 的 差异 ， 本 法 还 特别 对 参考 
色谱 (OO 与 待 校准 色谱 〈C) 之 间 的 保留 时 间 点 进行 了 基于 线性 插值 的 等 长 处 理 。alignDE 
法 的 计算 程序 框图 示 于 图 5-42. 

从 图 5-42 可 以 看 出 ， 本 法 首先 是 对 待 校准 色谱 (C) 中 色谱 峰 及 其 宽度 进行 小 波 模 式 识 
别 ， 继 对 其 进行 背景 扣除 和 肩 峰 和 重生 色谱 峰 簇 识别， 在 此 基础 上 ， 对 参考 色谱 (R) 也 进 
行 背 景 扣除 、 肩 峰 和 重 又 色谱 峰 艇 识 别 的 处 理 ， 然 后 再 进行 对 待 校准 色谱 (C) 与 参考 色谱 
CR) 间 的 保留 时 间 等 长 处 理 。 完 成 这 些 步 又 后 ， 继 采用 微分 进化 的 方法 对 它们 之 间 的 色谱 
峰 进 行 谱 峰 校准 ， 以 达到 它们 之 间 相 关系 数 的 最 大 匹配 。 下 面 将 对 这 些 步骤 进行 详细 介绍 。 

1. 色谱 数据 等 长 

由 于 采样 间隔 的 不 同 ， 稼 会 导致 色谱 数据 采样 点 数 的 不 相等 。 在 本 节 中 ， 用 线性 插值 使 
不 同 的 色谱 数据 具有 相同 的 点 数 。 首 先 从 最 简单 的 情况 开始 : 两 个 由 下 列 坐 标定 义 的 点 
Gri, yi) 和 (zs ，y?) 。 线 性 插值 的 点 构成 一 条 通过 这 两 点 的 一 条 直线 。 由 于 直线 通过 这 
两 个 点 ， 所 以 可 以 非常 方便 地 导出 直线 的 表达 式 : 


























































































































y=y1 G2) ied. 
mum; 

将 上 述 表达 式 泛 化 到 一 系列 的 数据 点 的 插值 中 意味 着 将 这 些 数 据点 两 两 插值 的 结果 连接 
起 来 。 假 定 参 考 色 谱 R 的 数据 点 数 为 NR， 而 待 校准 色谱 的 数据 点 数 为 NC。 将 C 的 保留 时 
间 等 分 为 NR 段 ， 利 用 这 NR 个 点 两 边 的 数据 点 和 线性 插值 可 得 插值 结果 。 

2. 基于 小 波 匹 配 的 谱 峰 识别 

通过 比较 一 些 谱 峰 检测 算法 ， 选 择 了 基于 信 噪 比 CS/NO 和 小 波 空间 兰 线 的 方法 [18 来 
进行 谱 峰 识别 。 该 方法 的 主要 思想 在 文献 [119] 中 进行 了 详细 的 描述 ,文献 [117] 改进 了 
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峰 检 测 及 峰 宽 佑 计 | 将 进行 谱 峰 校准 | 基线 校准 | 基线 校准 后 色 
的 色谱 谱 峰 列表 谱 的 峰 列表 
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" 小 波峰 检测 和 惩罚 最 小 二 乘法 进行 基线 校准 “| 基线 校准 后 的 参 
校准 参考 色谱 7| 考 色谱 峰 列表 
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sapgug | “检测 谱 峰 并 采用 微分 进化 进行 色谱 谱 峰 校准 ， 从 而 使 得 两 色谱 的 相关 达到 最 大 | 色谱 与 将 进 生 

H ACE BS CS iH E 

后 色谱 谱 峰 校准 的 
EN 未 色谱 




















alignDE 法 的 计算 程序 框图 


其 在 峰 宽 佑 计 上 的 不 足 ， 提 高 了 准确 性 。 该 方法 之 所 以 能 准确 地 检测 出 峰 的 位 置 和 峰 宽 ， 要 
归功 于 小 波 变 换 。 小 波 变换 可 以 分 为 离散 小 波 变 换 和 连续 小 波 变换 两 大 类 。 与 有 宛 余 且 有 效 
离散 小 波 变 换 不 同 ， 连 续 小 波 变换 允许 任意 缩放 因子 和 平衡 位 置 ， 这 就 使 变换 所 得 的 小 波 系 
数 包含 了 色谱 谱 峰 的 位 置 和 尺度 信息 。 因 为 连续 小 波 变 换 的 小 波 系 数 包含 我 们 所 需 的 信息 ， 
所 以 通过 连续 小 波 变换 将 色谱 数据 转换 到 小 波 空间 ， 然 后 在 小 波 空 间 检测 出 峰 的 位 置 和 峰 的 
宽度 。 连 续 小 波 变 换 可 以 定义 为 在 所 有 时 间 内 信号 的 缩放 和 位 移 的 小 波 母 函数 乘积 之 和 。 在 
数学 上 ， 连 续 小 波 变 换 的 过 程 可 用 式 (5-113〉 KA: 
































Cab) =| CO a CORE, 
(5-113) 





1 f(t—b ES 
Pab (1) zu" F Jaen bER 

式 中 , s(t) 是 信号 函数 ; a 和 2 3 EERE R R A ATSEM OO) 是 小 波 
母 函 数 ; C ÆRE RAGE RE. E SE E Ke T LUE TE R fai -IERE pR e e — Rb S 
只 。 如 果 要 想 利用 小 波 变 换 找 出 色谱 中 的 峰 信息 ， 小 波 母 函数 必须 和 色谱 的 峰 相似 。 从 一 系 
列 的 小 波 母 丽 数 中 选 出 墨西哥 帽 小 波 函 数 ， 该 函数 可 以 用 如 下 数学 公式 描述 : 


























2 
sco = [Br aat e (5-114) 








RP, p GO 是 墨西哥 帽 小 波 母 函数 ; x 是 圆周 率 ; e 是 欧 拉 常数 〈 约 等 于 2. 718281828). 
如 果 仔 细 观 察 色 谱 数 据 用 连续 小 波 变换 得 到 的 二 维 连续 小 波 系数 ， 能 够 发 现在 每 一 个 尺 
度 的 小 波 系 接近 于 峰 的 位 置 会 有 一 个 局 部 最 大 值 ， 而 且 当 缩放 因子 与 色谱 峰 的 大 小 相当 时 这 
些 局 部 最 大 值 达到 最 大 。 所 以 色谱 峰 的 检测 问题 转化 为 在 二 维 连续 小 波 系 数 空间 中 找 出 疹 线 
的 问题 。 色 谱 峰 可 以 在 其 二 维 连续 小 波 系 数 空间 中 用 如 下 三 个 步骤 找 出 : 通过 连接 不 同 尺 
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度 相 同位 置 的 局 部 最 大 值 找 出 疹 线 ; @ 基 于 痊 线 找 出 色谱 峰 ; 加 对 色谱 峰 的 参数 估计 进行 精 
调 。 图 5-43 描述 了 基于 连续 小 波 进行 峰 匹 配 的 步 台 。 图 5-43 a) 是 一 条 模拟 的 色谱 ， 找 出 
的 色谱 峰 用 圆圈 在 色谱 上 标 出 ;小波 变 换 的 缩放 因子 参数 设置 为 1 一 56， 5-43 (b) 是 二 
维 小 波 系 数 ; 5-43 (© ÆRA T HRR. WX K 5-43 (GO 和 图 5-43 (CO. ， 能 够 明显 
看 出 主要 色谱 峰 与 疹 线 的 对 应 关系 。 
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(c) 


将 杜 等 人 的 谱 峰 匹配 算法 应 用 到 色谱 中 
Ca) 模拟 色谱 数据 ,色谱 上 的 圆圈 表示 检测 出 的 色谱 峰 ; 
(o 二 维 小 波 系数 图 ; (o 在 二 维 小 波 系 数 中 找 出 的 次 线 























利用 墨西哥 帽 小 波 函 数 虽然 能 够 准确 检测 出 色谱 峰 的 位 置 ， 但 它 常 常 低 估 了 色谱 峰 的 宽 
度 。 为 准确 地 估计 出 色谱 峰 的 宽度 ， 张 志 敏 等 U1] 提 出 了 基于 Haar 小 波 母 函数 的 求 导 方 法 
的 色谱 峰 宽 估计 方法 ， 该 方法 能 够 准确 找 出 色谱 峰 的 流入 点 和 流出 点 。 该 色谱 峰 宽 估 计 方 法 
基本 上 由 如 下 4 个 步骤 组 成 : 中 对 色谱 进行 基于 Haar 小 波 母 函数 的 连续 波 变 换 ; 名 对 获得 
的 二 维 小 波 系数 和 矩阵 取 绝 对 值 ; 对 于 每 个 已 检测 出 位 置 的 色谱 峰 ， 从 第 @@ 步 得 到 的 和 矩阵 中 
取出 其 最 好 匹配 缩放 因子 对 应 的 行 ， 从 峰 位 置 开 始 向 两 端 寻找 局 部 最 小 值 ， 四 如 果 局 部 最 小 
值 存 在 ， 取 该 位 置 ， 如 不 存在 ， 取 原始 信号 某 一 范围 内 的 最 小 值 作 为 峰 的 流入 或 流出 点 。 
5-44 描述 了 基于 Haar 小 波 母 函数 的 连续 小 波 的 色谱 峰 宽 估 计 的 步骤 。 图 5-44 Ca) 为 每 个 
色谱 峰 的 最 好 缩放 因子 的 二 维 Haar 连续 小 波 变 换 系 数 取 绝 对 值 后 所 绘 ; 在 图 5-44 (b)， 每 
段 取 出 的 小 波 系数 都 被 其 绝对 值 代 替 。 每 个 峰 的 流入 点 和 流出 点 都 可 以 通过 第 包 和 四 步 找 
出 ， 在 图 中 星 号 表示 流入 和 流出 点 ， 圆 圈 则 表示 色谱 峰 位 置 。 
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(b) 


基于 Haar 母 小 波 的 连续 小 波 变换 用 于 色谱 峰 宽 估计 
(a) 从 二 维 小 波 系 数 和 矩阵 中 取出 并 绘 出 每 个 已 检测 出 的 峰 的 最 好 匹配 缩放 因子 对 应 的 行 ; 
Cb) 对 取出 的 行 作 绝对 值 ， 并 找 出 其 局 部 最 小 值 ， 从 而 确定 色谱 峰 的 流入 和 流出 点 


3. 背景 扣除 

因为 基线 的 存在 会 对 相关 系数 的 计算 产生 影响 ， 所 以 必须 在 进行 校准 之 前 对 基线 漂移 进 
行 扣除 。 在 应 用 alignDE 算法 做 校准 之 前 ， 利 用 张 志 敏 等 017'120 提出 的 扣除 算法 扣除 色谱 
可 能 存在 的 基线 。 该 基线 漂移 扣除 算法 具体 步骤 如 下 : 中 先 利 用 合适 的 ) 参数 拟 合 出 一 条 初 
步 的 基线 ;四 再 利用 第 外 步 拟 合 出 的 初步 基线 取代 原始 色谱 ， 拟 合 出 一 条 新 的 基线 ;四 通过 
在 前 面 获 得 的 色谱 峰 位 置 和 色谱 峰 宽 度 信息 ， 对 拟 合 出 的 基线 进行 调整 以 获取 更 准确 的 基线 。 

4. BHE 

XEF ERRIREN ME DC. WEA, BC EE RRERAREIE, EE 5-45 rp. WES. WE 
4 和 峰 5 重合 得 比较 严重 ， 难 以 准确 确定 每 一 个 峰 的 流入 和 流出 位 置信 息 ， 但 是 峰 3 的 流入 
和 峰 5 的 流出 点 却 是 可 准确 确定 的 。 对 于 重 准 峰 ， 可 给 定 一 个 阅 值 ， 即 当 相 邻 的 两 个 峰 的 结 
束 和 开始 位 置 之 差 小 于 该 值 时 ， 则 这 两 个 峰 被 合并 为 一 个 峰 复 。 在 进行 校准 时 ， 一 个 色谱 峰 
簇 中 的 所 有 峰 就 可 当 作 一 个 峰 来 处 理 。 图 5-45 示 出 了 一 个 色谱 峰 艇 的 例子 。 以 3 为 阔 值 ， 
在 图 5-45 (a) 中 四 边 形 框 内 的 3 个 峰 被 定义 为 一 个 峰 簇 。 

5. 利用 微分 进化 算法 校准 色谱 峰 

色谱 的 校准 问题 可 以 转化 为 以 参考 色谱 和 待 校 准 色谱 之 间 的 相关 性 为 目标 函数 的 优化 问 
题 ， 所 以 必须 选择 一 个 易 实 现 、 可 靠 、 快速 的 优化 算法 。 该 算法 能 够 在 可 接收 的 时 间 内 找到 
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(a) ERTER D AED ERE MEAE; (bo 虚线 框 出 的 为 合并 之 后 的 峰 簇 














解 ， 并 以 很 大 概率 收敛 到 真正 的 最 优 解 。 微 分 进化 算法 [2 是 一 种 满足 上 述 要 求 的 通用 
优化 算法 。 它 是 一 种 基于 种 群 的 优化 算法 ， 通 过 利用 个 体 之 间 的 差异 能 以 很 好 的 概率 智能 地 
向 真正 的 最 优 解 进化 。 微 分 进化 算法 最 初 由 Kenneth Price 和 Rainer Storan? peh. 。 通 过 利 
用 在 每 一 代 种 群 中 都 有 的 Np 维 参数 向 量 ， 微 分 进化 算法 是 一 种 易 并 行 的 直接 的 搜寻 方法 。 
Tj, G? j=l, iac tiia Np 

微分 进化 的 基本 流程 是 初始 化 、 突 变 、 交 换 和 选择 。 一 旦 初始 化 ， 可 以 不 断 地 重复 突变 、 交 
换 和 选择 这 三 个 步骤 来 寻找 最 优 解 。 

CD 初始 化 第 0 代 的 种 群 必须 用 每 个 参数 的 上 下 界 和 一 个 随机 数 产 生 器 用 式 (5-115) 
产生 : 




















Tj,i,0 = rand; (0, 1) * (bj.u — bj.) FORL 
J =l; 2y wy Npp i=l; 2; “sy Np 
式 中 ，xj,io 表 示 初 始 种 群 中 第 i 个 向 量 的 第 j 个 参数 ; bju FIL o; LAE IST j 个 参数 
的 上 界 和 下 界 ; NP 则 是 种 群 的 大 小 。 
(2) 突变 ”微分 进化 加 入 缩放 的 、 随 机 取样 的 两 个 向 量 之 差 到 第 三 个 向 量 之 中 ， 从 而 产 


生 突变 向 量 ， 


(5-115) 
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Vi,g Xo,g PF ic CX Ag — X,2,g?) 


FEO, 1+) 是 用 来 控制 在 进化 中 的 突变 率 的 缩放 因子 。 Tos Tis fa € (1. 2, t, Npj 是 
随机 采样 的 样本 编号 。 

(3) 交换 是 与 突变 互补 的 一 种 搜索 策略 ， 微 分 进化 按 一 定 概率 把 参数 向 量 与 突变 向 量 
进行 交换 ， 该 交换 过 程 可 用 下 式 描述 : 

u BNCT WR Crand; (0, 1) < Cr 9X j =j rana) 
Ui, s SUj, i, g g M 其 他 

Cr€ [0. 1] 是 交换 概率 ， 用 户 可 通过 控制 此 参数 来 控制 来 自 于 突变 向 量 参数 值 的 比例 。 

(4) 选择 假设 fu, so) E fci, vv) 小 ,在 下 一 代 种 群 中 利用 uuu, 替代 x;,。; 否则 


5 
x, REI. 


















































不 断 重 复 突变 、 交 叉 和 选择 的 过 程 直 到 最 优 解 已 达到 或 者 某 一 终止 准则 达到 ， 如 达到 最 大 的 
种 群 代 数 。 为 了 减 小 优化 过 程 中 搜寻 的 空间 的 大 小 ， 所 有 的 色谱 峰 按 它们 的 4 个 组 成 一 组 ， 
然后 用 微分 进化 算法 一 组 一 组 优化 。 微 分 进化 算法 用 来 在 [一 slack， +slack] 范围 内 同时 
调整 每 一 组 峰 中 的 4 个 峰 位 置 ， 同 时 用 线性 插值 翘 曲 非 峰 部 分 使 色谱 峰 的 位 置 能 够 移动 ， 保 
存 下 使 待 校 色谱 与 参考 色谱 之 间 相 关系 数 达 最 大 的 峰 位 置 。 当 所 有 的 色谱 峰 组 都 处 理 完 之 
后 ,利用 保存 的 色谱 峰 和 线性 插值 对 待 校准 色谱 进行 重建 以 获得 校准 好 的 色谱 。 

为 验证 alignDE 方法 的 有 效 性 ， 我 们 同时 用 模拟 数据 和 真实 的 色谱 数据 进行 了 测试 。 

6. 模拟 色谱 数据 

模拟 色谱 数据 由 高 斯 峰 、 正 弦 曲 线 的 基线 和 随机 噪声 组 成 。 参 考 色谱 用 及 表示 ， 加 入 
的 随机 噪声 的 方差 为 0.2。 待 校准 的 光谱 用 C 表示 ， 加 入 的 随机 噪声 的 方差 为 1。 色谱 R 中 
除了 第 2 个 峰之 外 ， 所 有 的 峰 都 漂移 50 个 点 。R 和 C 的 色谱 数据 都 是 用 R 编程 语言 产生 
的 ， 图 5-46 a) 是 它们 的 色谱 图 。 

对 模拟 色谱 数据 进行 校准 时 所 用 的 参数 如 下 : SNR. Th—3. ridge length—5. A— 100. 
peak shape threshold=0. 3, gap=5, slack=100, Np=200 及 itermax 一 150。 合 并 之 后 的 
峰 复 和 背景 扣除 之 后 的 结果 见 图 5-46 (b)， 校 准 之 后 的 色谱 图 可 以 在 图 5-46 (c) 中 看 到 。 
读者 可 清楚 看 到 ， 图 5-46 所 示 的 R 和 C 色谱 中 的 基线 扣除 结果 令 人 满意 ; 色谱 峰 的 位 置 和 
宽度 也 由 小 波 模 式 匹 配 准确 地 找 出 ; 所 有 漂移 的 色谱 峰 也 很 好 地 被 校准 了 。 这 些 结果 说 明了 
alignDE 算法 在 有 重 受 峰 存在 且 含 有 各 种 不 同 基线 漂移 和 不 同 的 噪声 水 平 的 情况 下 ， 都 可 准 
确 对 色谱 峰 的 漂移 进行 有 效 的 校准 。 

7. HPLC 数据 校准 结果 

所 用 色谱 数据 来 自 于 文献 L101]。 在 检测 时 ，DAD 参数 为 200 一 600nm， 带 宽 间 隔 为 
4nm， 故 每 一 条 UV 光谱 有 100 个 数据 点 。 数 据 的 第 一 列 ， 代 表 〈202 士 2)nm， 被 选 为 测试 
数据 用 于 评价 alignDE 校准 算法 在 HPLC 方面 的 性 能 。IBT11415 HES ER, m 
IBT15670 则 是 待 校准 色谱 。 这 些 色谱 见 图 5-47 a). 

对 HPLC 色谱 数据 进行 校准 时 所 用 的 参数 如 下 : SNR. Th—3. ridge length=5, à = 
100, peak shape threshold=0. 3, gap=5, slack=100, Np=200 及 itermax 一 150。 由 图 
5-47 (a) 可 见 IBT11415 和 IBT15670 确实 存在 漂移 ， 在 图 5-47 (bo) 中 读者 可 以 看 到 漂移 确 
实 得 到 了 校准 。 
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Ca) 校准 之 前 的 色谱 ;(b) 基线 扣除 和 合并 峰 簇 之 后 的 色谱 ; 
(c) 利用 alignDE 算法 基线 校准 后 的 色谱 
(R 表示 参考 色谱 ，C 表示 待 校准 色谱 ) 
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一 IBT11415 
E IBT15670 


1 L n L £ 
500 1000 1500 2000 2500 3000 
样品 区 间 
(c) 


[IE VB HPLC 数据 
Ca) 校准 之 前 的 谱 ; (b) ERARA MEME): (CO 校准 之 后 的 色谱 
(IBT11415， 参 考 谱 ; IBT15670， 待 校 谱 ) 


























8. alignDE 与 COW 的 比较 

本 节 中 还 比较 了 alignDE 与 COW 方法 000 的 性 能 。COW 方法 的 segment 和 slack 利用 
网 格 搜索 的 方法 进行 优化 。 得 到 的 比较 结果 列 于 表 5-15 中 。 以 相关 系数 来 看 ，alignDE 方法 
与 COW 方法 所 得 的 结果 一 样 好 。 读 者 可 以 看 到 对 于 真实 数据 COW 比 alignDE 的 相关 系数 
稍 好 ， 原 因 是 COW 方法 在 线性 插值 的 过 程 中 改变 了 色谱 峰 的 形状 。 在 参考 光谱 和 待 校 准 光 
谱 相 应 的 峰 部 分 有 一 些 差别 时 ，COW 方法 倾向 于 拉 升 或 者 压缩 峰 。 这 种 现象 可 以 在 图 5-48 
(c) 中 看 到 。 通 过 放大 校准 后 的 前 两 个 峰 ， 读 者 可 以 明显 地 看 到 峰 1 被 明显 地 改变 了 。 这 也 
说 明 COW 方法 获得 的 高 相关 系数 是 以 改变 色谱 峰 的 形状 为 代价 的 ， 并 不 可 靠 。 用 alignDE 
校准 后 的 色谱 绘图 5-48 (d)， 读 者 可 以 看 到 得 益 于 小 波峰 匹配 的 准确 性 和 稳健 性 ，alignDE 
方法 在 校准 过 程 中 能 够 保证 峰 形 、 峰 高 和 峰 面积 不 变 。 


alignDE 与 COW 校准 结果 的 比较 














































































































相关 系数 
E E 基线 z 
初始 值 COWO alignDE? 
" 未 校正 0. 2401 0. 6966 0. 8059 
模 拟 
校正 后 0. 1181 0. 7133 0. 7821 
未 校正 0. 8049 0. 9287 0. 9223 
HPLC(IBT) En 
校正 后 0. 7862 0. 9222 0. 9189 
CD 对 于 所 有 数据 ，segment 王 22，slack 王 16。 
C 对 于 所 有 数据 ，slack 王 100，Np 王 200，itermax 一 150。 








9. 定量 分 析 校 准 结果 

赤 芍 的 HPLC 数据 用 于 定量 分 析 一 些 主要 色谱 峰 在 校准 前 和 校准 后 的 变化 。 共 有 8 条 
赤 芍 色谱 ， 其 中 7 个 赤 克 的 样本 在 中 国 的 各 个 赤 误 产 区 购买 ， 还 有 一 个 购 于 中 检 所 的 标准 亦 
AER., HPLC 在 珠海 科 曼 公司 进行 ， 然 后 把 得 到 的 赤 芍 色谱 数据 用 HP chemstations 转换 
为 ASCII 数据 以 便于 数据 处 理 。 

首先 ， 利 用 线性 插值 将 色谱 的 等 长 为 4000 点 。 然 后 用 alignDE 和 如 下 参数 进行 校准 : 
SNR=1, ridge length — 10, A — 100. peak shape threshold = 0.3. gap= 5, slack — 5. 
Np 王 30，itermax 一 300。 色 谱 数据 中 几 个 主要 色谱 峰 在 校准 前 和 校准 后 的 峰 位 置 被 检测 并 
列 于 表 5-16 中 ， 这 些 色 谱 峰 已 在 图 5-49 (b) 中 用 虚线 框 标 出 。 通 过 对 比 表 5-16 中 校准 色 
谱 峰 与 其 相应 的 参考 色谱 峰 的 保留 时 间 ， 可 以 看 出 Pis Pa IP, 都 被 很 好 地 校准 了 。 但 是 
校准 后 的 P， 峰 的 保留 时 间 与 其 参考 峰 的 保留 时 间 有 点 差异 。 主 要 原因 是 色谱 峰 是 这 些 色谱 
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中 最 大 的 峰 ， 色 谱 峰 P. 的 最 高 点 比较 平 ， 由 多 个 值 差不多 的 点 构成 。 所 以 在 校准 的 结果 中 






































因 样 本 的 变化 ， 检 测 出 的 峰 位 置 相 应 地 有 些小 变化 。 
np E 
| — IBT11415 — IBTI14I5 
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IBT15670， 校 准 后 















































IBT15670， 校 准 后 
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(c) (d) 
ERED 比较 alignDE 与 COW 对 谱 峰 形状 和 面积 的 影响 
(a) 由 COW 校准 所 绪 得 的 色谱 ;(b) 由 alignDE 校准 所 获得 的 色谱 ; 
(c) 是 对 (a) 中 前 两 个 峰 放大 的 结果 ; (D 是 对 (Oo 中 前 两 个 峰 放大 的 结果 
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赤 芍 HPLC 数据 利用 alignDE 算法 校准 前 (a) 和 校准 后 (b) 的 谱 图 
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比较 赤 芍 HPLC 的 部 分 峰 在 用 alignDE 校准 前 和 校准 后 的 保留 时 间 
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峰 保留 时 间 
样品 编号 校准 相关 系数 
Pi P; Ps P, 
参考 f 3. 275996 16. 669344 26. 242987 32. 208229 1. 0000 
否 3. 259742 6.685598 26. 210479 32. 208229 0. 9743 
C-09-001 
是 3. 259742 16. 701852 26. 242987 32. 208229 0. 9809 
f 3. 275996 6. 718106 26. 259241 32. 208229 0. 9797 
C-09-002 
是 3. 275996 16. 701852 26. 242987 32. 208229 0. 9836 
fü 3. 275996 6. 701852 26. 242987 32. 191975 0. 9794 
C-09-003 
是 3. 275996 16. 701852 26. 242987 32. 208229 0. 9795 
fü 3. 275996 6. 636836 26. 291750 32. 191975 0. 9856 
C-09-004 
是 3. 275996 16. 653090 26. 242987 32. 208229 0. 9955 
否 3. 259742 16. 685598 26. 308004 32. 191975 0. 9868 
C-09-005 
是 3. 259742 6. 701852 26. 242987 32. 224483 0. 9901 
fr 3. 275996 16. 685598 26. 291750 32. 191975 0. 9811 
C-09-006 
是 3. 275996 6. 685598 26. 242987 32. 208229 0. 9834 
T 3. 259742 16. 685598 26. 438036 32. 256991 0. 9625 
C-09-007 
是 3. 275996 6. 669344 26. 356766 32. 224483 0. 9788 


二 、 多 尺度 色谱 谱 峰 校准 方法 


多 尺度 色谱 谱 峰 校准 算法 (multiscale peak alignment, MSPA) 在 校准 过 程 中 不 会 改变 














宽 。 接 下 来 计算 每 








参考 谱 的 相关 系数 为 目标 函数 ， 


























峰 的 形状 。 通 过 使 用 连续 小 波 变换 将 色谱 转换 到 小 波 空间 ， 能 够 准确 得 到 色谱 峰 的 位 置 和 峰 





一 个 峰 的 香农 信息 含量 ， 然 后 按 信息 含量 将 色谱 峰 分 成 小 段 。 用 快速 傅 里 
叶 变 换 交 叉 相 关 计 算 每 一 段 色 谱 候选 移动 点 数 。 组 合 相 邻 色谱 段 候 选 移动 点 数 ， 以 最 大 化 与 








jr ia 














Ji x RE 


段 的 最 佳 移动 点 数 。 最 后 对 无 峰 信 号 区 间 线 性 插值 


移动 检测 到 的 色谱 峰 。 此 校准 过 程 迭 代 到 每 一 个 色谱 段 只 有 一 个 色谱 峰 且 都 校准 好 为 止 。 可 
以 看 到 MSPA 方法 逐步 地 从 大 到 小 对 色谱 峰 进 行 校准 ， 这 也 是 多 尺度 色谱 谱 峰 校准 算法 得 


名 的 原因 。 














MSPA 算法 将 快速 傅 里 叶 变 换 交 又 相关 系数 中 的 局 部 最 大 值 的 索引 作为 校准 时 需 移 动 
E 和 速度 。 因 为 是 利用 基于 谱 峰 信息 将 色谱 


的 点 数 ， 此 技术 的 运用 保证 了 该 校准 算法 的 准确 怕 























分 段 ， 然 后 再 计算 参考 谱 与 待 校 谱 之 间 相 应 段 的 交叉 相关 系数 ， 所 以 MSPA 算法 还 包括 峰 
检测 、 峰 宽 佑 计 、 和 迭代 分 段 及 最 优 移动 点 数 确 定 。 岁 5-50 中 描述 了 MSPA 算法 的 流程 、 架 





构 与 概要 ，MSPA 中 的 算法 和 理论 方面 的 细节 在 后 续 小 节 中 进行 详细 


























介绍 。 


分 析 信 号 中 峰 位 置 的 检测 和 峰 宽 佑 计 是 一 个 很 基础 的 问题 。 在 本 研究 中 采用 基于 连续 小 
波 变 换 求 导 方 法 检测 














和 的 位 置 及 估计 
峰 。 色 谱 信号 中 峰 的 尺度 不 一 











第 的 宽度 [5 ， 然 后 月 





日 信 噪 比 剔 除 一 些 假 阳性 的 色谱 
FE。 基于 相关 系数 的 校准 方法 在 校准 过 程 中 大 峰 比 小 峰 对 相关 


系数 的 影响 要 大 得 多 ， 也 就 是 说 大 峰 比 小 峰 在 校准 过 程 中 对 相关 系数 影响 大 所 以 容易 校准 。 
所 以 说 在 校准 过 程 中 小 峰 比 大 峰 更 难以 校准 ， 校 准 过 程 中 不 确定 性 大 。 在 信息 论 中 3] ， 香 











农 信息 含量 是 对 不 旭 














程 中 的 难度 ， 它 可 用 式 (5-116) 计算 : 























h; = —logzp; 


定性 很 好 的 度量 。 在 本 研究 中 ， 香 农 信息 


含量 用 来 衡量 每 个 峰 在 校准 过 








(5-116) 
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输入 与 输出 峰 识别 与 色谱 分 段 峰 校 准 从 大 色谱 段 到 小 色谱 段 的 迭代 过 程 


————— ———(—— ——— — E E RR RECEN E M 



























用 FFT 交 叉 相 关 检 测 
需 校准 色谱 峰 断 


| 
结合 几 个 未 校准 的 色谱 段 进 
行 峰 移动 ， 以 达到 在 最 佳 
移动 过 程 中 相关 系数 最 大 











































































































根据 各 色谱 峰 的 信息 量 
来 对 整个 色谱 进行 划分 
的 峰 禾 、 峰 波 缩 区 | 
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采用 连续 Haar 小 波 进行 
峰 宽 估 计 












































连续 Haar 小 波 进行 
峰 检 测 





m3 














需 校准 的 色谱 e 
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还 存在 没 校准 的 色谱 





























MSPA 校准 算法 流程 图 


式 中 ， uo d 及 ;为 香农 信息 含量 。 将 香农 信息 含量 用 于 色谱 中 时 ， 还 


需 对 式 (5-116) 进行 适当 修改 0 。 先 要 将 色谱 中 的 色谱 面积 进行 归 一 化 ， 然 后 计算 其 us 
息 含量 








hi log sy (5-117) 


式 中 ，p; 为 第 i 个 峰 的 面积 ;之 p; 为 色谱 中 所 有 峰 面积 之 和 。 色 谱 峰 的 香农 信息 含量 
值 越 小 ， 说 明 该 峰 的 不 确定 度 小 ， 峰 的 尺度 较 大 。 在 以 相关 系数 为 准则 的 校准 过 程 中 ， 大 峰 
必须 给 予 较 高 的 优先 级 。 所 以 MSPA 中 将 色谱 中 依据 其 香农 信息 含量 ， 从 大 峰 到 小 峰 以 一 
种 迭代 的 方式 逐步 校准 。 图 5-51 展示 了 这 种 将 色谱 按 其 峰 位 置 及 其 太 度 信息 迭代 地 分 为 小 
的 色谱 段 的 过 程 。 

交叉 相关 是 计算 两 个 存在 线性 漂移 的 信号 间 相 关系 数 与 漂移 点 数 的 标准 方法 。 它 将 一 信 
号 向 某 一 方向 不 断 移动 ， 并 计算 与 另 一 信号 之 间 的 相关 系数 。 对 于 给 定 的 两 个 连续 函数 ”> 和 
s， 它 们 间 相 对 移动 7 个 点 数 之 后 的 相关 系数 为 : 




















十 co 
cG -[ reos 十 7 )dz 


类 似 于 两 个 连续 函数 的 交叉 相关 ， 离 散 的 色谱 信号 之 间 的 交叉 相关 系数 可 按 式 (5-118) 
计算 ， 


Dira risaj s] 
cG) = i (5-118) 


JEFO [XBass] 
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基于 峰 位 置 及 其 尺度 信息 迭代 式 分 段 技术 
(a) 峰 、 香 农 信 息 量 及 最 初 的 分 段 ; (b) 采用 FFT 交叉 相关 和 局 部 组 合 来 校准 ; 
Co 将 多 个 峰 的 片段 再 细 分 为 更 小 的 片段 ; (OD 最 终 的 校准 结果 



































AP, r 是 参考 谱 ; s 是 待 校 谱 ;向量 c 是 交叉 相关 系数 。 

AX C-118 可 以 看 出 ， 对 于 长 度 为 N 的 色谱 数据 直接 计算 交叉 相关 系数 需要 
ON?) 时 间 复 杂 度 。 色 谱 数据 经 常 有 上 万 个 数据 点 ， 因 此 直接 计算 其 交叉 相关 非常 耗 时 间 。 
非常 幸运 的 是 交叉 相关 可 以 通过 快速 依 里 叶 变 换 来 计算 以 达到 更 快 计算 速度 ， 它 可 以 将 其 计 
算 时 间 复 杂 度 从 ON?) 降低 为 OCN1logN) 。 人 快速 傅 里 叶 变换 是 离散 傅 里 叶 变换 的 快速 计算 
版 本 。 为 了 阐明 如 何 使 用 快速 依 里 叶 变 换 计算 交叉 相关 系数 ， 本 小 节 从 离散 傅 里 叶 变 换 开 
台 ， 离 散 传 里 叶 变 换 与 其 逆 变 化 定义 为 : 
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AP, X 为 傅 里 叶 变 换 之 后 的 数据 。 侍 里 叶 变 换 与 其 逆 变 换 可 用 XX 二 F(x) 和 x 二 FF 1 COX) 
表示 。 如 果 R 和 S 分 别 是 r 和 s 经 过 离散 傅 里 叶 变 换 后 得 到 的 数据 ,那么 根据 循环 卷 积 和 交 


又 相关 定理 ， 交 又 相关 系数 可 由 式 (5-119) 计算 : 
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c=F I(R.S*)} (5-119) 


AF, Hce 为 r 和 s 间 的 交叉 相关 系数 ; S " 则 是 S RHE, 

傅 里 叶 交 又 相关 只 能 计算 两 信号 之 间 的 线性 深 移 ， 不 同样 本 的 色谱 间 保 留 时 间 漂 移 来 说 
常常 是 非 线性 的 。 在 MSPA 方法 中 ,为 了 能 处 理 保 留 时 间 中 非 线 性 的 漂移 ， 将 色谱 信号 利 
用 其 峰 信息 和 峰 尺 度 将 其 逐步 分 为 小 的 色谱 段 。 然 后 用 传 里 叶 交 义 相 关 的 方法 找 出 小 的 色谱 
段 间 所 有 可 能 的 漂移 点 数 。 上 述 技巧 能 够 解决 色谱 保留 时 间 非 线性 漂移 的 问题 。 之 前 提出 的 
基于 快速 傅 里 叶 交 叉 相 关 的 校准 方法 都 只 用 到 了 交 义 相关 系数 中 最 大 值 的 索引 作为 最 佳 移动 
点 数 。 有 时 以 小 段 信号 算出 来 的 最 佳 移动 点 数 在 大 点 的 尺度 来 看 并 非 最 佳 。 因 此 在 MSPA 
方法 中 ,用 快速 傅 里 叶 变换 交叉 相关 找 出 每 一 小 段 色 谱 所 有 可 能 的 移动 点 数 ， 然 后 与 其 相 邻 
的 小 段 色谱 在 更 大 范围 内 进行 组 合 ， 以 得 到 在 大 尺度 范围 内 最 优 的 移动 点 数 。 

下 面 是 用 快速 侍 里 叶 变 换 交 又 相关 去 计算 候选 移动 点 数 的 简单 例子 。 假 设 有 两 条 色谱 
(用 r fl s 来 分 别 表示 参考 谱 和 待 校 谱 )， 它 们 之 间 存 在 着 一 个 未 知 的 保留 时 间 上 的 漂移 。 利 
用 快速 传 里 叶 变 换 ， 可 非常 高 效 地 计算 出 r 和 s 之 间 的 交 又 相关 系数 c， 而 候选 移动 点 数 则 
为 交叉 相关 系数 e 的 局 部 最 大 值 对 应 的 索引 。 该 示例 绘 于 图 5-52 中 ， 候 选 移动 点 数 20 表示 
将 待 校 信号 向 右 移动 20 个 点 数 可 使 两 个 信号 间 的 相关 系数 达到 一 个 极 大 值 。 
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GEA 用 快速 传 里 叶 交 又 相关 计算 色谱 段 候选 移动 点 数 





许多 时 候 基于 小 的 色谱 段 用 传 里 叶 交 叉 相 关系 数 中 最 大 点 索引 在 更 大 尺度 上 并 非 最 优 的 
选择 。 为 了 避免 这 种 问题 ， 可 先 在 计算 出 的 交叉 相关 系数 中 找 出 其 所 有 局 部 最 大 值 作为 候选 
移动 点 数 ， 然 后 对 相 邻 的 几 个 色谱 段 中 的 候选 移动 点 数 进行 组 合 来 最 大 化 它们 与 参考 谱 之 间 
的 相关 系数 。 图 5-53 为 交叉 相关 系数 中 最 大 点 索引 并 非 最 优 移动 点 数 的 例子 。 通 过 提出 的 
解决 方案 ，MSPA 能 够 很 好 地 解决 上 述 问 题 。 在 图 5-53 Ca) 中 ， 以 交叉 相关 系数 中 最 大 点 
索引 作为 最 优 移动 点 数 ， 导 致 相 邻 两 段 色 谱 间 的 最 移动 优点 数 存 在 着 冲突 ， 从 而 导致 校准 后 
的 色谱 数据 中 有 一 个 色谱 峰 消失 了 。 通 过 利用 候选 移动 点 数 和 相 邻 段 之 间 的 组 合 等 技巧 ， 该 
问题 被 成 功 解决 。 从 图 5-53 (b) 可 以 看 出 ， 对 于 每 一 个 待 校 色谱 中 的 峰 ， 第 1 个 峰 移 动 90 
个 点 和 第 2 个 峰 移 动 一 59 个 点 相 冲 突 。 所 以 通过 每 段 的 候选 点 之 间 组 合 ， 第 1 个 峰 移动 90 
个 点 和 第 2 个 峰 移动 120 个 点 被 选 为 最 佳 移动 点 数 ， 能 够 解决 此 冲突 并 得 到 理想 的 校准 结果 。 
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通过 对 非 峰 部 分 进行 线性 插值 来 移动 色谱 峰 ， 这 样 就 可 以 在 不 改变 峰 的 形状 和 面积 的 情 
况 下 校准 色谱 ， 而 且 能 够 减少 引入 缺陷 数据 。 对 于 某 些小 到 无 法 用 本 节 提 出 的 峰 检测 算法 检 
测 出 的 色谱 峰 ， 线 性 插值 能 尽量 保持 峰 信息 不 变化 。 

本 节 中 的 所 有 算法 均 用 MATLAB 实现 ,编程 和 数据 处 理 所 用 计算 机 为 Dell Inspiron 
530, CPU 为 Intel® Core™ 2 Quad Q6600， 内 存 为 2G。 该 方法 能 够 在 http: / 
code. google. com/p/mspa 下 载 。 用 户 只 需 将 参考 谱 、 待 校 谱 及 几 个 直观 参数 给 出 ，MSPA 
算法 就 能 够 快速 准确 地 校准 色谱 中 存在 的 保留 时 间 漂 移 。 这 几 个 参数 分 别 为 检测 峰 时 的 信 噪 
比 阔 值 、 每 段 色 谱 的 允许 最 大 移动 点 数 。 用 传 里 叶 交 叉 相 关 进 行 候选 点 检测 时 ， 每 段 色 谱 的 
允许 移动 点 数 不 能 过 大 ， 否 则 会 产生 过 移动 问题 。 

实验 部 分 介绍 了 用 于 测试 MSPA 算法 的 实验 数据 。 首 先 用 于 测试 它 的 基本 功能 的 模拟 












































数据 ， 然 后 用 代谢 组 学 和 中 药 指纹 图 谱 数 据 来 检测 MSPA 在 不 同色 谱 数 据 中 的 效果 。 表 5- 
17 中 为 这 三 组 数据 的 概要 信息 ， 包 括 样本 数 和 色谱 点 数 。 


模拟 、 代 谢 组 学 和 中 药 指 纹 图 谱 数 据 概要 信息 

















概要 信息 模拟 数据 FFAs 数据 FAI 数据 
样品 个 数 1 121 38 
数据 点 数 900 3900 12000 








模拟 数据 根据 Nielsen 的 文章 [中 产生 ， 它 由 高 斯 色谱 峰 、 正 弦 背 景 和 随机 品 声 组 成 。 
两 个 模拟 色谱 之 间 的 色谱 峰 位 置 、 噪 声 水 平和 基线 各 不 相同 。 在 图 5-54 (a)〉 中 实 线 是 参考 








谱 ， 虚 线 为 待 校 谱 ， 添 加 正 态 分 布 噪 声 的 方差 分 别 为 1 和 0. 2。 

血浆 中 游离 脂肪 酸 样本 Cree fatty acids, FFAs) 由 中 南大 学 湘 雅 医院 采集 于 121 个 禁 
食 过 夜 糖尿 病 串 者。 每 个 样品 都 在 3000g 下 离心 10min. 然后 转移 到 微量 离心 管 中 。 
EDTA-Na, 作 为 抗 凝血 剂 被 加 入 到 样品 之 中 ， 并 加 入 内 标 C(25p1 C17: 0 和 25pl C17: 0 脂 
肪 酸 甲 酯 ) 。 酯 类 化 合 物 用 正己 烷 萃取 出 ， 酯 化 反应 产生 的 甲 酯 化 的 游离 脂肪 酸 被 莹 取 入 正 
己 烷 中 ， 然 后 用 N; 进 行 富 集 。 在 进行 色谱 分 析 之 前 ， 在 每 个 样本 中 均 加 入 10091 的 正己 烷 。 
使 用 仪器 为 日 本 岛 津 的 GC2010A 气相 色谱 和 GCMS-QP2010 联 用 质谱 仪 。 每 次 进 1. Op 血 
浆 样 到 DB-23 毛细 管 柱 中 (30mX0.25mm， 膜 厚 0.25ym)， 分流 比 为 1 : 10。 氨 载 气流 速 
为 1.0mL/min。 柱 温 程 序 升温 为 70~~220C 。 离 子 源 的 电压 为 70eV， 其 温度 为 200C，。 
共计 39 HERRE (fructus aurantii immaturus. FAIS) 样品 收集 自 中 国 19 个 省 市 自治 
区 ， 并 从 中 国药 检 所 购买 其 标准 样 。 将 样本 进行 粉碎 ， 并 过 60 HW. PE o. 5g, ECT 
150ml 平底 伐 瓶 之 中 ， 在 室温 下 用 25ml 甲醇 超声 提取 10min 并 进行 过 滤 。 实 验 所 用 高 效 液 
相 色 谱 型 号 为 Agilent/ HP 1100 系列 。 对 每 个 样品 ， 取 20l 进 样 到 Sepax 色谱 柱 中 (C18. 
5um, 250mm X 4. 6mm). i 2 AH gi. F EE 0.0526 R HE ZH DX. vu c dH Du XE y 
0.8ml/min， 柱 温 保持 在 30C 。 紫 外 检测 器 检测 波长 为 284nm， 获取 的 液 相 色 谱 由 HP 
chemstations (version A. 09. 01) 工作 站 导出 为 NetCDF 格式 ， 并 用 MSPA 方法 进行 校准 。 

上 述 三 组 数据 被 用 来 测试 MSPA 算法 的 性 能 ， 它 们 的 校准 结果 见 本 小 节 。 同 时 本 节 中 
还 对 MSPA 算法 和 几 种 常用 校准 算法 进行 了 比较 。 通 过 这 些 结果 和 比较 ， 本 节 中 还 讨论 了 
MSPA 算法 的 优点 、 特 性 和 使 用 技巧 。 

图 5-54 是 模拟 数据 校准 结果 ， 其 中 图 5-54 a) 为 校准 之 前 的 模拟 数据 ， 峰 检测 和 峰 帘 
估计 准确 ， 而 且 峰 与 峰之 间 的 保留 时 间 漂 移 是 非 线性 的 。 经 MSPA 校准 的 结果 展示 在 图 5- 
54 (b) 中 ， 可 以 看 出 色谱 峰 与 峰之 间 的 非 线性 漂移 全 部 都 被 校准 。MSPA 能 够 成 功 校准 有 
重 释 峰 、 基 线 和 噪声 存在 的 色谱 数据 。 
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测试 MSPA 校准 算法 性 能 的 模拟 数据 
Ca) 模拟 色谱 图 ; (b) 用 MSPA 测试 的 待 校 模拟 色谱 






































代谢 组 学 的 FFAs 数据 用 于 测试 MSPA 在 校准 代谢 组 学 数据 的 效果 。 同 时 将 校准 之 前 
和 校准 之 后 的 色谱 数据 绘 于 图 5-55 中 ， 在 图 5-55 中 有 几 个 峰 被 放大 从 而 以 更 清晰 的 方式 展 
示 校 准 结果 。 在 没 校准 之 前 的 放大 图 中 ， 可 以 看 到 样本 间 色 谱 峰 位 置 存在 着 差异 。 将 校准 后 
相同 区 域 放大 绘图 ， 可 以 看 出 所 有 的 色谱 峰 都 已 经 校准 好 。 在 图 5-55 的 下 部 ， 绘 制 两 张 色 
谱 校准 前 后 整体 的 效果 图 。 从 左边 可 以 看 出 ， 校 准 之 前 代表 峰 的 线 是 不 规则 的 锯齿 形 ， 这 也 
说 明了 样本 和 样本 之 间 存 在 着 保留 时 间 上 的 差异 。 校 准 之 后 的 整体 效果 图 先前 的 不 规则 的 锯 
齿 形变 为 直线 ,说 明 MSPA 方法 能 够 消除 样品 色谱 间 保 留 时 间 的 差异 。 通 过 对 比 被 放大 峰 
校准 前 后 的 峰 形 ， 可 以 看 出 MSPA 不 会 在 校准 过 程 中 改变 色谱 峰 的 形状 ， 这 就 证 实 了 











MSPA 算法 能 保证 峰 形 不 改变 的 优点 。 


























以 可 实 高 效 液 相 指纹 图 谱 数据 校准 为 例 ， 说 明 MSPA 能 够 校准 好 中 药 色谱 指纹 图 谱 ， 


改善 中 药 质量 控制 效果 。 首 移 用 小 波 检 测 出 色谱 








条 ， 通 过 把 所 有 色谱 绘 于 图 中 ， 可 佑 计 最 大 


漂移 约 为 280 个 数据 点 ， 所 以 参数 “maximum shift (最 大 移动 点 数 ) ”设置 为 285。 没 有 





校准 的 指纹 图 谱 见 图 5-56 Ca». 校准 后 的 指纹 图 


谱 见 图 5-56 (b)。 与 代谢 组 学 数据 例子 相 





同 ， 本 例 中 也 提供 了 放大 的 色谱 峰 和 校准 前 后 的 整体 效果 。 它 们 都 说 明 MSPA 算法 能 够 成 





功 地 将 可 实 色谱 指纹 图 谱 中 的 保留 时 间 漂 移 校准 。 
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用 MSPA 方法 校准 中 药 色 谱 指 纹 图 谱 数 据 结 果 
(a) EPE mA HPLC 指纹 图 谱 ; (bo). 使 用 MSPA Fre mg sce a HPLC 指纹 图 谱 
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(c) (d) 
o 8 3538 i2oF— 8558 
--- 待 校 谱 | --- 待 校 谱 
100|----COW 校 准 谱 100|—COWRzfiit 
80} 80 上 
| I! | | 
E 60 | Bw 60 | 
S ES 
40 上 40. 
20| | j | | 20} if 
~ | I" 
or satt "aan "m Lone Qnid Lnatinistene) ens]. acciri Sainan 
—— < 一 一 一 
0 200 400 600 800 0 200 400 600 800 
时 间 /s 时 间 /s 
(e) (f) 
El 5-57 色谱 基线 对 校准 方法 的 影响 
(a) 使 用 MSPA 校准 基线 未 校正 的 色谱 图 ;(b) 使 用 MSPA 校准 有 基线 校正 的 色谱 图 ; 
CO 使 用 RAFFT 校准 基线 未 校正 的 色谱 图 ;(d) 使 用 RAFF 校准 有 基线 校正 的 色谱 图 ; 
(e) 使 用 COW 校准 基准 未 校正 的 色谱 图 ;(f) 使 用 COW 校准 的 有 基线 校正 的 色谱 医 





























为 了 比较 基线 对 MSPA, RAFFT 和 COW 等 校准 方法 的 影响 ， 本 节 中 采用 加 入 正弦 基 
线 的 模拟 色谱 数据 。 用 MSPA 算法 校准 有 基线 和 没有 基线 的 数据 ， 结 果 分 别 绘 于 图 5-57 
Ca) 和 b) 中 ， 可 以 看 出 无 论 基线 是 否 存在 ，MSPA 算法 都 能 校准 好 数据 ， 所 以 MSPA Jr 
法 不 易 受到 色谱 中 基线 的 影响 。RAFFT 算法 也 同样 校正 有 基线 和 没有 基线 的 两 条 模拟 色 
谱 ， 校 准 结果 绘 于 图 5-57 (c) 和 (D 中 。RAFFT 能 够 校准 好 有 基线 存在 的 模拟 色谱 ,但 





| 274 | 分 析 化 学 手册 © 化 学 计量 学 





是 如 果 将 同样 的 参数 用 于 没有 基线 存在 的 模拟 色谱 数据 中 ， 从 图 5-57 (O 中 可 以 看 到 第 1 
个 峰 没有 校准 好 。 这 说 明 RAFFT 算法 受 色谱 基线 的 影响 比较 大 。RAFFT 算法 不 好 确定 其 
maximum shift 参数 ， 通 过 枚 举 85— 10, 34 maximum shift — 70 时 能 够 得 到 较 好 的 效果 。 
COW 方法 用 于 校准 此 数据 ，segment 和 slack 参数 用 格 点 法 搜索 ，segment 王 22 和 slack = 
16 时 校准 效果 最 好 。COW 的 校准 结果 见 图 5-57 (e) 和 O. B COW 方法 在 校准 过 程 
同样 也 不 受 背 景 的 影响 ， 但 可 明显 看 出 它 校 准 之 后 峰 的 形状 被 改变 了 ， 而 且 它 的 segment 和 
slack 两 个 参数 优化 也 非常 耗 时 。 因 此 在 此 数据 上 ，MSPA 5 RAFFT 和 COW 方法 相 比 有 
更 稳健 、 不 易 受 基线 影响 、 不 改变 峰 的 形状 及 参数 容易 调节 等 优点 。 

可 实 色谱 指纹 图 谱 数 据 由 于 植物 样本 间 成 分 含量 差异 比较 大 ， 所 以 此 数据 难以 校准 。 在 
本 节 中 用 可 实 数据 来 评价 MSPA, RAFFT 和 COW 这 三 种 校准 方法 的 校准 质量 。 评 价 标准 
是 校准 之 后 样本 间 的 相关 系数 ， 相 关系 数 大 小 用 颜色 来 表示 ， 颜 色 越 接近 红色 相关 系数 越 
大 ， 越 接近 蓝 色 则 相关 系数 越 小 。 样 本 间 相 关系 数 图 见 图 5-58。 对 比 校准 前 后 的 相关 系数 
E. BEHEA, H MSPA 方法 处 理 后 样本 颜色 最 红 。 因 此 MSPA tk RAFFT 和 COW 这 
两 种 方法 能 够 更 加 准确 地 校准 色谱 峰 的 位 置 。 

校准 结果 还 可 以 用 校准 后 的 色谱 和 参考 谱 相 关系 数 的 平均 值 Onc) 来 衡量 ， 该 值 可 以 
用 式 〈5-120) 来 计算 : 














| 2 2: pr) ($5, ; —8:) 
mcc(r, S) 一 一》， 一 (5-120) 
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样本 索引 
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比较 不 同 校准 方法 校准 后 样本 间 相 关系 数 


(a) 待 校准 谱 ; (b) MSPA 校准 ; (O RAFFT 校准 ; (d) COW 校准 








AP, r 是 参考 信号 ; 


用 MSPA, RAFFT 和 COW 分 别 校准 色谱 数据 的 moc, mroa 和 平均 校准 时 间 
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S Jé E EE C ÓBIE. ffr Cu. s; 则 是 第 i 条 色谱 的 平均 值 。 


























数据 集 校准 方法 mcc mrca / 96 平均 校准 时 间 /s 
未 校准 0. 0561 = = 
MSPA 0. 7764 0.16 0. 0540 
模拟 谱 
RAFFT 0. 6060 2.14 0. 0036 
COW 0. 8420 14. 04 1. 5582 
未 校准 .5783 士 0. 4137 一 一 
MSPA . 9486 +0. 0279 110. 21 0. 2215 +0. 3681 
FFA 
RAFFT . 9382 +0. 0405 300. 48 0. 00580. 0022 
COW . 9375 +0. 0607 9624-1. 22 13. 25542-0. 0665 
未 校准 .2871 士 0. 3054 = = 
MSPA .8859 士 0. 1314 07 士 0. 08 1.0428 士 0. 4373 
FAI 
RAFFT . 86314-0. 1325 262-0. 40 0. 02243-0. 0057 
COW . 875120. 1285 464-4. 08 160. 64472- 6. 2072 
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在 校准 过 程 中 ， 色 谱 峰 的 形状 也 会 改变 。 这 种 变化 也 必须 用 一 个 参数 来 衡量 ， 从 而 评价 
校准 方法 在 校准 过 程 中 能 够 保存 谱 峰 形状 的 能 力 。 这 可 以 用 校准 过 程 中 相对 峰 面 积 改 变 
(mrca ) KHE: 











mrca 一 二 >)| —— 5E (5-121) 





XB. S HEREHERE, HREN; A 是 校准 之 后 的 色谱 矩阵 。 

M MSPA, RAFFT 和 COW 分 别 校 准 模 拟 、 游 离 脂 肪 酸 和 可 实 色谱 数据 的 mec. 
mrca 和 平均 校准 时 间 列 于 表 5-18 中 来 评价 校准 质量 和 速度 。 算 法 参数 设置 与 优化 过 程 与 前 
几 节 相 同 。 对 于 模拟 色谱 集 ，MSPA 校准 结果 远 比 RAFFT 要 好 。 虽 然 MSPA 方法 在 模拟 
数据 集中 的 mee 比 COW 方法 稍 小 , 但 是 COW 和 MSPA 的 mrca 分 别 为 14. 0496 和 
0.16%。 可 以 得 出 COW 方法 获得 的 高 相关 系数 是 以 峰 形状 改变 为 代价 的 ， 是 不 可 靠 的 。 对 
于 真实 的 色谱 数据 集 游 离 脂肪 酸 和 可 实 ，MSPA 方法 的 mec 和 mrca 均 为 三 种 方法 中 最 好 
HJ. AE MSPA 的 执行 速度 比 RAFFT 稍 慢 ， 但 是 对 于 上 万 个 数据 点 的 机 实数 据 集 ，MSPA 
校准 一 条 色谱 的 时 间 为 1s 左右 ， 可 以 接受 。 不 管 是 MSPA 还 是 RAFFT 方法 均 远 快 于 
COW 方法 。 所 以 与 RAFFT 和 COW 方法 相 比 ，MSPA 有 下 面 几 个 优点 : 校准 质量 要 比 
COW 和 RAFFT 好 ; ORAFFT 校准 速度 最 快 ，MSPA 的 速度 也 可 以 接受 ， 即 使 是 几 万 个 
数据 点 的 色谱 ; @COW 速度 要 远 慢 于 RAFFT 和 MSPA， 且 它 会 严重 改变 色谱 峰 的 形状 。 
可 以 看 出 ，MSPA 似乎 找到 了 校准 质量 与 速度 间 的 平衡 点 。 

本 节 中 所 提出 的 MSPA 算法 能 够 准确 快速 地 校准 大 批量 的 色谱 数据 。 该 方法 参数 据 少 
且 直 观 ， 易 于 调节 。 通 过 三 组 色谱 数据 的 测试 及 与 常用 校准 方法 比较 ， 可 得 出 MSPA 方法 
具有 在 校准 过 程 中 不 改变 峰 形状 与 面积 、 可 处 理 好 非 线性 的 保留 时 间 漂 移 、 能 避免 校准 过 程 
中 局 部 最 优 问题 及 稳健 、 对 噪声 和 背景 不 敏感 等 优点 。 由 于 笔者 将 该 算法 开源 ， 能 够 让 更 多 
的 研究 者 下 载 到 MSPA 算法 并 针对 其 特定 的 应 用 进行 定制 和 改进 。 这 些 优点 能 够 让 MSPA 
算法 解决 代谢 组 学 和 中 药 质量 控制 等 领域 中 大 批量 色谱 数据 校准 难题 ， 能 够 让 研究 者 在 可 接 
受 的 时 间 内 预 处 理 好 数据 ， 从 而 能 及 时 分 析 、 解 析 和 从 数据 中 用 统计 学 或 化 学 计量 学 提取 出 
有 用 信息 。 


三 、 基 于 组 分 波谱 信息 的 色谱 谱 峰 校准 方法 


前 面 讨 论 了 基于 使 目标 色谱 指纹 图 谱 与 待 校准 的 色谱 指纹 图 谱 的 相关 系数 达到 最 大 化 的 
一 个 色谱 峰 校 准 方法 。 值 得 提出 的 是 ， 这 些 方法 的 主要 对 象 是 针对 一 维 色谱 而 言 的 ， 它 们 只 
使 用 了 色谱 保留 的 信息 。 其 特点 是 易于 实现 自动 谱 峰 校准 ， 使 用 方便 。 随 着 近年 来 色谱 仪器 
的 飞速 发 展 ， 联 用 色谱 仪器 ， 如 GC-MS, HPLC-DAD, HPLC-MS 以 及 色谱 仪 与 多 级 质谱 
的 联 用 (HPLC-MS/MS")， 大 量 进入 中 药 色 谱 指 纹 图 谱 的 分 析 。 这 些 分 析 仪 器 的 引入 ， 使 
得 所 获得 化 学 成 分 信息 量 大 大 提高 ， 这 样 ， 如 何 有 效 地 利用 联 用 色谱 提供 的 波谱 (包括 紫外 
光谱 和 质谱 ) 信息 来 进行 中 药 色 谱 指 纹 图 谱 的 谱 峰 校准 ， 也 得 到 了 较 快 的 发 展 。 这 类 方法 主 
要 是 针对 联 用 色谱 而 设计 的 ， 其 主要 思路 是 基于 充分 利用 联 用 色谱 中 的 光谱 (UV 光谱 ) 或 
波谱 (质谱 ) 的 信息 。 由 于 这 类 方法 充分 利用 了 化 学 成 分 信息 ， 其 效果 当然 是 更 准确 ， 但 由 
于 这 类 方法 计算 量 大 ， 所 以 不 易 实现 自动 谱 峰 校准 ， 计 算 开 销 也 随 之 增 大 。 

在 讨论 这 类 方法 之 前 ， 有 必要 先 讨论 一 下 此 类 方法 引入 的 必要 性 。 图 5-59 示 出 了 一 个 
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这 样 的 例子 。 图 5-59 示 出 了 两 个 各 含 5 个 色谱 峰 的 模拟 色谱 。 其 中 的 数字 分 别 表示 不 同 的 
化 合 物 。 在 图 5-59 (a) 中 ， 可 以 看 到 ， 这 两 个 色谱 之 间 存 在 一 定 的 漂移 ， 需 要 进行 谱 峰 校 
准 。 对 于 这 两 个 色谱 ， 正 确 的 谱 峰 校准 结果 示 于 图 5-59 (bp)。 然 而 ， 如 采用 使 目标 色谱 指 
纹 图 谱 与 待 校准 的 色谱 指纹 图 谱 的 相关 系数 达到 最 大 化 方法 ， 所 得 的 校准 结果 却 是 不 对 的 
[参见 图 5-59 (© ]， 得 到 这 个 结果 的 原因 就 在 于 ， 在 第 一 个 色谱 中 第 4 个 化 合 物 的 谱 峰 较 
大 而 第 5 个 化 合 物 的 谱 峰 较 小 ， 而 在 第 二 个 色谱 中 却 是 第 4 个 化 合 物 的 浓度 较 小 而 第 5 个 化 
合 物 的 浓度 却 较 大 。 为 应 对 在 中 药 色 谱 指 纹 图 谱 中 的 这 种 情况 ， 有 必要 发 展 新 型 的 基于 联 用 
色谱 数据 的 谱 峰 校准 方法 。 
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EEEIB 闲 释 化 学 组 分 的 浓度 与 相关 系数 二 者 关系 的 一 个 示例 
CED 












































注意 到 不 同 的 两 个 色谱 曲线 ， 虽 对 应 的 流出 组 分 的 保留 时 间 可 能 存在 差异 和 漂移 ， 但 它 
们 的 光谱 〈 或 质谱 ) 却 是 十 分 稳定 而 保持 不 变 的 。 所 以 ， 可 以 通过 对 所 有 不 同 流出 时 间 点 的 
光谱 进行 相关 计算 ， 即 可 得 一 个 类 似 色谱 的 光谱 相关 系数 曲线 ， 在 此 ， 称 为 光谱 相关 
色谱 [129] 。 
一 般 说 来 ， 两 个 组 分 的 光谱 相关 系数 可 由 式 (5-122) 计算 ， 
(4:570, 1:3 
Ti 7 1G; sol 16; 
rK, RRAZ i 的 光谱 s; 与 组 分 j 的 光谱 8; 越 相似 。 当 > 一 1 时 ， 两 个 组 分 就 是 相同 的 
化 学 物质 。 实 际 上 ， 由 于 量 测 误差 的 存在 , + 最 大 值 不 可 能 等 于 1， 只 能 逼近 于 1。 其 中 上 
ECT 表示 矢量 的 转 置 ，f， 和 ;分 别 表 示 光 谱 矢 量 s; 与 8) 的 均值 ， 可 通过 式 (5-123) ck 
得 ， 即 


(5-122) 














sar ji Es mss 
gue M w 或 5 一 二 3 (5-123) 


n n 








| * || 为 Frobenius 范 数 ， 可 由 式 (5-124) 计算 ， 即 
lx | =r Hr +e Hr, ) (5-124) 
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现 设 通 过 某 种 适当 的 方法 ， 得 到 了 一 个 由 联 用 色谱 仪 ， 如 GC-MS 或 HPLC-DAD,， 测 得 的 
色谱 指纹 图 谱 中 的 某 一 个 纯 物 质 光 谱 ， 记 为 s;。 事 实 上 ,该 纯 物 质 光 谱 可 通过 对 色谱 峰 进 
行 纯 度 检验 ， 或 通过 选择 性 区 域 的 确定 来 获得 。 为 进一步 得 到 相对 于 为 一 色谱 指纹 图 谱 中 该 
纯 物 质 的 光谱 相关 色谱 ， 则 可 通过 对 另 一 个 样本 的 二 维 色谱 指纹 图 谱 所 包含 的 所 有 光谱 ， 即 
其 每 一 个 保留 时 间 点 所 对 应 的 光谱 ， 记 为 x;，(j 二 1，…，m)， 来 计算 它们 与 该 目标 纯 物 质 
光谱 的 相似 系数 。 这 样 ， 就 可 得 到 本 文 所 定义 的 相对 于 该 目标 纯 物 质 的 光谱 相关 色谱 。 在 实 
际 的 运算 中 ， 对 二 维 色谱 指纹 数据 矩阵 的 每 一 行 zj， G51, cns m) 都 计算 出 与 该 目标 纯 
物质 光谱 的 相似 系数 即 可 。 将 式 (5-122) 改写 为 : 

(s; — $1) (x;— ZX)) 
ESEE 


根据 光谱 相关 系数 的 大 小 ， 就 可 识别 出 不 同 实验 条 件 下 所 得 的 中 药 色谱 指纹 网 谱 中 同一 
化 学 物质 对 应 的 流出 组 分 ， 而 无 须 具 体 鉴 定 该 组 分 为 哪 种 化 学 物质 。 继 结合 目标 纯 物 质 光 谱 
所 在 的 原色 谱 峰 得 的 保留 时 间 人 信息， 正确 判断 其 准确 的 峰 位 置 ， 以 实现 中 药 色 谱 指 纹 图 谱 的 
仪器 系统 误差 的 校准 。 

图 5-60 (a) 中 的 虚线 和 实 线 分 别 示 出 了 样本 1 与 样本 2 在 波长 4 二 300nm 的 色谱 流出 
由 线 。 值 得 指出 的 是 ， 样 本 1 与 样本 2 为 同一 银杏 提取 中 药 样 本 在 高 效 液 相 色谱 二 极 管 阵列 
联 用 仪器 CHPLC-DADO 的 不 同色 谱 柱 (一 为 Agilent C18 柱 ， 一 为 Waters C18 柱 ) EW 
得 的 两 组 实际 二 维 数 据 。 从 图 可 以 看 出 ， 同 一 中 药 银杏 样本 在 同一 台 仪 器 不 同 的 色谱 柱 上 所 
得 的 指纹 图 谱 发 生 了 一 定 程度 的 组 分 色谱 保留 时 间 的 偏 移 ， 这 将 给 中 药 色 谱 指 纹 图 谱 的 识 
别 、 鉴 定 以 及 质量 检测 带 来 不 便 和 困难 。 











rG, j)= G =1, 2, =, m) (5-125) 
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(b) 
J. í n 
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t/min 


EED 中 药 银杏 样本 的 高 效 液 相 色谱 指纹 谱 图 与 组 分 光谱 相关 色谱 曲线 
Ca) 样本 1 与 样本 2 在 波长 4 二 300nm 的 色谱 图 ; (bo 样本 1 的 组 分 al 与 样本 2 的 组 分 的 光谱 相关 色 i 
al 一 目标 组 分 ; a2 一 光谱 相关 组 分 ，b2 一 干扰 组 分 ; 
r(al. a2) 一 组 分 al 与 a2 的 相关 系数 ; r(al，b2) 一 组 分 al 与 b2 的 相关 系数 

下 面 举例 具体 阐述 光谱 相关 色谱 ， 它 可 以 较 好 地 解决 这 个 问题 。 首 先 ， 从 数据 中 直接 获 

得 样本 1 中 组 分 al 的 光谱 s。 然 后 根据 公式 (5-125) 计算 样本 2 的 每 一 色谱 保留 时 间 点 
对 应 光谱 与 ss 的 相关 系数 。 以 相关 系数 > 对 保留 时 间 上 作 图 ， 图 5-60 (bo 为 所 得 光谱 相关 
色谱 曲线 。 组 分 a2 和 b2 对 应 的 x 值 最 大 ， 分 别 为 (al，a2) —0.9998, r(al, b2) 一 0.9940 
[ 见 图 5-61 (a) ]。 值 得 注意 的 是 ， 两 个 相关 系数 都 很 大 〈 大 于 0.990. ， 而 样本 2 中 不 可 能 
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存在 完全 相同 的 两 个 物质 。 究 竟 哪 个 物质 与 组 分 al 相同 呢 ? 根据 相关 系数 大 小 可 初步 判断 
组 分 al 与 a2 是 同一 化 学 物质 ， 虽 然 它 们 的 色谱 保留 时 间 有 些 偏 移 。 仪 器 背景 和 噪声 以 及 化 
学 物质 光谱 的 相似 性 和 细微 差异 ， 导 致 在 没有 获得 “ 待 检验 的 相关 组 分 ” 纯 光 谱 的 情况 下 直 
接 通 过 式 (5-125) 进行 组 分 相关 检验 会 有 一 定 程度 的 误差 。 但 这 种 方法 的 运算 速度 较 快 捷 、 
方便 实用 。 一 般 可 初步 判断 在 不 同 实验 条 件 下 得 到 的 色谱 指纹 图 谱 相 关 组 分 的 色谱 保留 时 
间 。 为 进一步 验证 组 分 al 与 a2 是 不 是 同一 化 学 物质 ， 再 比较 它们 所 在 的 局 部 色谱 峰 艇 ,并 
对 比 组 分 al 与 组 分 a2 、b2 的 纯 光 谱 。 组 分 al 与 组 分 a2 . b2 所 在 的 色谱 峰 艇 (图 5-6 
标记 样本 1 与 样本 2 的 色谱 峰 簇 ) 形状 以 及 强度 非常 相似 ， 将 组 分 a2 、b2 所 在 的 色谱 峰 簇 
右 移 得 到 的 色谱 峰 复 〈 图 5-62 PER) 与 组 分 al 所 在 的 色谱 峰 复 基本 一 致 。 由 于 光谱 是 物 
质 定性 分 析 的 重要 依据 ， 从 图 5-61 (bo 的 光谱 比较 可 看 出 ，su 与 sw 完全 一 致 ， 而 su 与 
sb 有 着 明显 差别 。 这 都 说 明 al 与 a2 是 同一 化 学 物质 ， 同 时 ,它们 所 在 的 局 部 色谱 峰 簇 也 
很 相似 。 
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相对 吸收 
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300 350 400 


)/nm 
样本 1 的 组 分 al 与 样本 2 的 组 分 a2 和 b2 的 相关 色谱 曲线 以 及 它们 的 光谱 
(a) 组 分 al 与 组 分 a2 和 b2 在 波长 A — 300nm 的 相关 色谱 曲线 图 ;(b) 组 分 al 、a2 、b2 的 紫外 光谱 
sal、Saz、Sbz 分 别 为 组 分 al 、a2 、b2 的 紫外 光谱 
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吸收 强度 














t/min 
组 分 al 与 组 分 a2 和 b2 所 在 的 局 部 色谱 峰 簇 在 波长 — 300 nm 处 的 比较 图 
a2 为 组 分 a2 右 移 后 所 得 的 色谱 峰 。 虚 线 色谱 峰 簇 为 组 分 a2 和 b2 所 在 的 色谱 峰 簇 右 移 所 得 





图 5-63 是 较为 复杂 的 光谱 相关 色谱 分 析 图 (波长 1 一 260nm)。 组 分 b2 、g2 、a2 和 e2 
与 bl 光谱 相关 系数 都 较 大 ( 见 图 5-64)， 而 组 分 b2 与 bl 的 相关 系数 最 大 。 从 组 分 光谱 和 色 
谱 峰 簇 的 角度 出 发 ， 只 有 bl MEKI (ILE 5-65 中 标记 样本 1 的 虚线 ) 与 b2 所 在 的 峰 
iE 〈 见 图 5-65 中 标记 样本 2 的 实 线 ) 相 吻 合 ， 组 分 b2 与 组 分 bl 相对 应 ， 由 此 说 明 组 分 bl 
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与 b2 所 在 的 局 部 色谱 峰 簇 光谱 相关 。 依 照 这 种 原理 ,识别 出 样本 1 与 样本 2 中 比较 显著 的 
化 学 物质 对 应 的 组 分 色谱 曲线 ， 表 5-19 列 出 了 它们 的 色谱 保留 时 间 。 
ETAO FAREED 1 与 样本 2 的 相关 组 分 及 对 应 的 色谱 保留 时 间 
保留 时 间 /min 保留 时 间 /min 
峰 号 峰 号 
样本 1 样本 2 样本 1 样本 2 
1 2. 0820 1. 7020 1 8. 2620 7. 2087 
2 2. 5287 2. 1153 12 9. 4220 8. 3353 
3 2. 9953 2. 4753 3 0. 3487 9. 2553 
4 3. 5553 2. 9753 14 10. 8887 9. 7287 
5 4. 0553 3. 4220 5 1. 2820 10. 0287 
6 4. 4087 3. 6753 16 12.1953 10. 9887 
7 5. 5287 4. 7153 7 3. 4153 12. 2020 
8 6. 0820 5. 1020 18 15. 7020 14. 6420 
9 6. 9953 6. 1020 19 18. 7620 17. 6020 
10 7. 6620 6. 5020 20 22. 9687 21. 7287 
2000 
HA (a) | 
mm 1 
x E "EE EE E 
EX okean Bs ad E Ld a ES 样本 2 | 
0 5 10 15 20 
12 
Š (b) (bl, g2) r(b1, b2) 
KR l- 
iu M NAP au, AAE 
gn 06, it i i 
i 
w 
E 
EX 
t/min 
银杏 样本 的 指纹 图 谱 在 校正 前 后 的 色谱 图 与 组 分 光谱 相关 色谱 曲线 
Ca) 样本 1 与 样本 2 在 波长 4 二 260nm 的 色谱 图 ;(b) 样本 1 的 组 分 bl 与 样本 2 的 组 分 的 光谱 相关 色谱 ; 














(c) 以 样本 1 的 指纹 图 谱 组 分 的 色谱 "n 留 时 间 为 基准 校正 样本 2 的 指纹 图 谱 所 得 的 色谱 曲线 
bl 表示 目标 组 分 ; b2 表示 光谱 相关 组 分 ; g2 表示 干扰 组 分 ; 
r(bl. b2) 表示 组 分 bl 5j b2 的 相关 系数 ; r(bl, g2) 表示 组 分 bl 与 g2 的 相关 系数 






































r(b1, b2) 





r(bl, e2) 








t/min 


0.99r r(bl, J 
6 7 8 9 i 


10 


11 


样本 1 的 组 分 b1 与 样本 2 的 组 分 a2、b2、g2 和 e2 的 相关 色谱 曲线 
r(bl. b2) ,r(bl，a2) ,r(bl，g2) ,7r(bl，e2) 分 别 为 它们 的 相关 系数 
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go0l DIE 
al fel 
600} ^ el 
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e 400 
200} 
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9 10 m 12 
t/min 
ERD 组 分 bl 与 组 分 b2 所 在 的 局 部 色谱 峰 簇 在 波长 A —260nm 的 比较 图 
v 样本 1; -一 样本 2 





通过 对 上 述 不 同 实验 条 件 下 所 得 中 药 色 谱 指纹 图 谱 的 组 分 进行 相关 分 析 可 知 ， 样 品 在 不 
同色 谱 柱 中 分 离 ， 各 组 分 的 色谱 虽然 存在 偏 移 ， 而 洗 脱 的 次 序 基本 不 变 ， 它 们 的 色谱 光谱 相 
关 。 因 而 ,可 利用 化 学 计量 学 校正 的 方法 来 解决 指纹 图 谱 的 波动 和 组 分 色谱 保留 时 间 的 偏 移 
问题 。 图 5-63 (a) 是 样本 1 与 样本 2 校正 前 的 在 二 260nm 波长 的 指纹 色谱 比较 图 ， 图 5-63 
O 为 校正 后 的 指纹 色谱 比较 图 。 这 说 明 化 学 计量 学 方法 处 理 中 药 色 谱 指 纹 图 谱 ， 完 全 有 可 
能 客观 表征 和 评价 特征 指纹 图 谱 。 用 光谱 相关 色谱 ， 即 组 分 的 光谱 和 局 部 色谱 峰 艇 相关 ， 分 
析 人 处 理 了 很 多 中 药 色 谱 指 纹 图 谱 ， 都 取得 令 人 满意 的 结果 。 实 践 证 明 ， 光 谱 相 关 色 谱 分 析 方 
法 为 中 药 化 学 特征 指纹 图 谱 的 整体 模糊 综合 分 析 提 供 了 实用 、 可 靠 的 手段 。 自 然 ， 如 何 更 有 
效 且 更 快速 进行 联 用 色谱 数据 的 谱 峰 校准 仍 有 待 进一步 发 展 和 完善 。 


、 质 谱 辅 助 色谱 谱 峰 校准 


近年 来 有 多 种 二 维 色谱 谱 峰 校准 的 方法 被 提出 0130-134 。 由 于 中 药 色谱 指纹 图 谱 [135 是 
一 个 复杂 多 组 分 体系 ， 在 实际 分 析 中 ， 被 认为 是 一 个 比较 困难 的 分 析 人 体系。 在 2003 年 ， 
Gong 5&9] 提出 了 一 种 结合 化 学 计量 学 多 元 分 辩 和 三 次 样 条 插值 的 校准 方法 ， 可 以 用 来 比 
较 好 地 校准 中 药 色谱 指纹 图 谱 。XCMSL130] 为 用 户 处 理 、 分 析 和 可 视 化 联 用 仪器 数据 提供 了 
系列 工具 。msalign20130 是 为 LC-MS 和 LC-MS/MS 数据 校准 提出 的 一 种 方法 。 但 是 以 上 这 
些 方法 在 原理 上 都 较为 复杂 且 比 较 耗 时 。 实 际 上 ， 联 用 色谱 仪器 除了 能 提供 分 析 体系 的 色谱 
分 离 数据 之 外 ， 还 可 以 提供 各 组 分 的 质谱 信息 ， 如 果 能 够 充 用 利用 这 些 信息 ， 特 别 是 色谱 对 
应 的 质谱 信息 ， 将 可 以 使 色谱 谱 峰 校准 结果 更 加 可 靠 。 

在 本 节 中 ， 笔 者 提出 了 一 种 新 的 更 快 更 精确 的 色谱 谱 峰 校准 方法 ， 并 称 为 CAMS 算法 
(chromatogram alignment via mass spectra)[137 ， 即 质谱 辅 是 色谱 谱 峰 校准 法 。 这 个 方法 的 
校准 结果 不 改变 峰 的 形状 。 该 方法 通过 使 用 连续 小 波 变换 准确 得 到 色谱 峰 的 位 置 和 峰 宽 ， 并 
利用 快速 傅 里 叶 变换 交叉 相关 计算 每 一 段 色 谱 候 选 峰 移动 点 数 。 通 过 与 参考 峰 相 对 应 的 质谱 
进行 比 对 ， 确 定 每 一 段 候选 峰 的 最 佳 移动 点 数 。 最 后 对 无 信号 区 间 进 行 线性 插值 和 谱 峰 移动 
得 到 最 终 校准 的 色谱 。 

CAMS 算法 充分 利用 联 用 色谱 仪器 产生 的 色谱 和 光谱 信息 。 图 5-66 描述 了 CAMS 算法 
的 流程 、 架 构 与 概要 。 

一 般 情 况 下 ， 谱 峰 检测 可 以 分 成 三 个 步骤 : 平滑 、 背 景 扣除 和 峰 检测 。 信 和 号 中 的 谱 峰 检 
测 是 一 个 非常 基础 的 问题 ， 目 前 有 大 量 的 方法 可 供 参 考 ， 如 信 噪 比 、 信 和 号 强度 阔 值 、 峰 的 坡 
度 、 局 部 最 大 值 、 峰 形 比率 、 肴 线 、 基 于 模型 和 峰 宽 等 方法 。 本 节 采 用 的 是 张 等 人 15] 提出 
的 方法 ， 该 方法 可 以 在 不 同 的 信 噪 比 的 情况 下 很 好 地 估算 出 峰 的 位 置 和 峰 的 宽度 。 
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通过 Haar 连 续 小 波导 通过 Haar 连 续 小 波导 
数 进行 峰 检 测 数 进行 峰 宽 估计 




















通过 快速 传 里 叶 交 叉 相 
天 来 进行 峰 移动 检测 
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已 完成 校准 的 色谱 














CAMS 谱 峰 校准 算法 流程 图 


在 信号 处 理 领 域 ， 交叉 相关 "3 站 常 被 用 来 表示 两 个 信号 间 相 似 性 的 度量 ,通过 与 已 知 信 
号 比较 用 于 寻找 未 知 信号 中 的 特性 。 它 是 两 个 信号 之 间 相 对 于 时 间 的 一 个 函数 。 对 于 给 定 的 
两 个 连续 函数 f. Ceo 和 g(x) ， 它 们 间 相 对 移动 t 个 点 数 之 后 的 相关 系数 为 : 





十 co 
qaoo-[ f*GogG T r)dz (5-126) 





X d GO 函数 是 f(r) RRRA. e, SET PPS BRBCHU S EAH 


G x g)[n]= » f x [mjg[n +m] (5-127) 


m= = 











NE, f 是 参考 信号 ; g 是 待 校准 的 信号 ; Cf * go 是 所 有 变量 的 交叉 相关 。 下 面 将 使 
用 快速 傅 里 叶 变 换 加 快 计 算 交 叉 相 关 的 过 程 ， 离 散 传 里 叶 变 换 和 逆 变 换 可 分 别 表 示 为 : 





N—1 
X, = r,e k=0, =, N—1 (5-128a) 
7 一 0 
1 N 一 1 
z, 一 一 >) X, etinm 有 一 0，…，N 一 1 (5-128b) 
N £6 





AF, X 表示 时 域 采 样 后 的 连续 傅 里 叶 变换 ， 传 里 叶 变换 和 其 逆 变 换 可 分 别 用 三 
Fix) fü x —F !(X) RER. WR F 和 G 分 别 是 函数 1 和 g 经 过 离散 传 里 叶 变换 后 得 到 的 数 
据 ， 快 速 依 里 叶 变 换 交 又 相关 可 表示 为 : 

















c —real(F ! (F - G* 3) 
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B. G* 是 G BS EO SE RC, Pii fup e GEH AU f] FH Dok [8 HL np E e 6 SCRHOR TTE 6C Moe 
选 移动 点 数 。 假 设 有 两 条 色谱 f 和 g Cf 和 g 分 别 表示 参考 谱 和 待 校 谱 )， 这 两 个 谱 之 间 存 
在 着 保留 时 间 上 的 漂移 。 利 用 快速 传 里 叶 交 叉 相 关 进 行 窗口 移动 计算 时 ， 若 参考 谱 和 待 校 谱 


重奏 时 ， 可 以 得 到 一 个 











局 部 最 高 的 交叉 相关 系数 ， 而 候选 移动 点 数 则 为 交叉 相关 系数 c 的 局 


部 最 大 值 相对 应 的 索引 值 。 在 本 节 中 ， 利 用 快速 傅 里 叶 进 行 交叉 相关 计算 最 大 的 好 处 是 可 以 





关 可 以 在 相同 时 间 里 处 理 更 多 的 数据 量 。 
下 面 以 模拟 数据 为 例 进行 说 明 ， 如 图 5-67 所 示 。 这 里 有 两 条 色谱 (黑色 表示 参考 谱 ， 














红色 表示 待 校 谱 )， 首 先 用 Haar 小 波 对 待 校 谱 进行 谱 峰 检测 ， 得 到 两 个 谱 峰 ， 





使 算法 的 时 间 复 杂 度 从 原来 的 OCN?) 降 到 OCNIogNO ， 换 句 话说 ， 利 用 快速 傅 里 时 交叉 相 


然后 依次 对 





两 个 谱 峰 进行 快速 傅 里 叶 交 叉 相 关 ， 可 以 得 到 一 系列 的 候选 移动 点 ， 结 果 如 图 5-67 所 示 ， 


其 中 ，14 和 9 为 两 个 谱 峰 最 有 可 能 的 候选 移动 点 ， 最 终 


确定 。 




















结果 需要 通过 质谱 信息 对 比 后 











n-3,14,-22,-2,-1: 











一 参 考 谱 ( 模 拟 


| FET 交 叉 相关 
| 上 峰 宽 + 最 大 移 








时 间 /s 


用 快速 傅 里 时 交叉 相关 计算 谱 峰 候选 移动 点 数 (n) 


在 统计 学 中 ， 相 关系 数 常 月 








间 的 相关 系数 可 以 用 下 式 表示 : 


> asaw 一 了 ) 
i=1 


表示 两 个 随机 变量 之 间 的 线性 关系 。 一 般 情况 下 ， 两 个 变量 


(5-130) 








2) (zi — 2) 2) (yi —7)? 
i=l i=l 





RP, x My 表示 两 个 变量 ; z My 分 别 表示 两 





量 的 均值 。 


相关 系数 的 值 在 [一 1，1」 之 间 ， 当 两 个 变量 的 线性 关系 增加 时 ， 相 关系 数 趋 于 1 或 
一 1， 其 中 1 表示 两 个 变量 为 正 相 关 ， 一 1 表示 两 个 变量 为 负 相 关 ， 当 两 个 变量 相互 独立 时 ， 
其 相关 系数 为 0044 。 但 是 ， 两 个 变量 之 间 的 相关 系数 并 不 是 很 稳健 ， 而 且 易 受 奇异 值 影响 。 
所 以 在 本 节 中 ， 采 用 的 是 矩阵 相关 系数 来 判断 两 个 谱 峰 间 质 谱 信息 的 相关 性 。 和 矩阵 相关 系数 


可 以 被 定义 为 : 
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JG (Am — 40!) (24 20 Bm — B) 


m n m n 











RP, AMB 是 两 个 大 小 相同 的 矩阵 ; A 和 B 是 矩阵 A 和 B HIE, Ted P. EER 
各 行 代表 一 个 光谱 数据 ， 和 矩阵 的 列 数 代表 色谱 峰 的 点 数 。 

下 面 以 模拟 数据 为 例 进行 说 明 ， 如 图 5-68 所 示 ， 这 里 有 两 条 色谱 (1 表示 参考 谱 ，2 表 
示 待 校 谱 )， 首 先 用 Haar 小 波 对 待 校 谱 进 行 谱 峰 检测 ， 并 用 快速 傅 里 叶 计 算 两 个 谱 的 交叉 
相关 系数 ， 得 到 一 系列 的 漂移 候选 点 ， 然 后 计算 每 个 峰 的 峰 顶 与 参考 谱 峰 项 的 质谱 之 间 的 珑 
阵 相关 系数 ， 当 待 校 谱 的 峰 与 参考 谱 的 峰 重 匡 且 质谱 数据 一 致 时 ， 其 对 应 的 漂移 候选 点 数 为 
最 佳 的 漂移 点 ， 结 果 如 图 5-68 Bra. 

经 过 谱 峰 检测 和 快速 传 里 时 交叉 相关 等 步骤 确定 了 每 个 谱 峰 的 漂移 点 数 后 ， 对 谱 峰 进行 
相应 的 移动 ， 对 于 非 峰 部 分 ， 通 过 线性 插值 来 移动 色谱 峰 ， 这 样 可 以 确保 在 不 改变 谱 峰 形状 
和 面积 的 情况 下 校准 好 色谱 ,而且 能 够 减少 引入 缺陷 数据 。 同 时 ， 对 于 很 微小 的 色谱 峰 ， 线 
性 插值 能 最 大 量 地 保持 峰 信息 不 发 生变 化 。 谱 峰 移 动 的 过 程 如 图 5-69 所 示 。 

本 节 中 所 有 的 算法 实现 所 在 的 平台 为 Dell Inspiron 580s 台式 机 ， 其 CPU 为 Intel 
Core™ 2i3，RAM 为 2G。CAMS 算法 均 采 用 MATLAB 实现 ， 并 可 在 github 网 站 (http: / 
www. github. com/matchcoder/CAMS) 免费 下 载 和 使 用 。 
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El 5-08 利 用 质谱 信息 确定 色谱 谱 峰 最 佳 的 漂移 点 数 
(a) 模拟 色谱 ; OD 模拟 谱 中 候选 移动 点 数 处 的 质谱 ; (pb2) 目标 谱 中 候选 移动 点 数 处 的 质谱 
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根据 最 佳 漂移 点 数 移动 谱 峰 至 正确 位 置 
(a) 模拟 色谱 ，(b) 校准 后 的 模拟 色谱 








模拟 色谱 数据 采用 真实 的 GC-MS 数据 剪 切 和 拼接 而 成 。 使 用 仪器 为 日 本 岛 津 的 
GC2010A 气相 色谱 和 GCMS-QP2010 联 用 质谱 仪 。 采 用 经 剪 切 后 的 简单 模拟 色谱 数据 可 以 
更 好 地 阐述 CAMS 算法 的 流程 。 图 5-70 GO 是 原始 的 模拟 数据 ，1 表示 参考 谱 ，2 代表 待 
校 谱 。 在 谱 峰 检测 和 计算 快速 侍 里 叶 交 又 相关 系数 后 ， 可 以 得 到 每 个 谱 峰 的 所 有 候选 漂移 点 
数 ， 结 果 如 图 5-70 Cb) 所 示 ， 例 如 第 一 个 谱 峰 的 候选 漂移 点 数 为 [3，9， 一 17， 一 2]， 其 
中 一 17 为 交叉 相关 系数 局 数 最 大 值 数 组 里 的 最 大 值 。 图 5-70 〈c) 分 别 表示 检测 出 的 三 个 谱 
峰 的 交 又 相关 曲线 。 经 过 对 每 个 谱 峰 的 峰 顶 与 每 个 谱 峰 的 候选 漂移 点 对 应 的 质谱 进行 对 比 ， 
可 以 充分 确定 模拟 数据 里 的 每 个 谱 峰 的 最 佳 漂移 点 数 分 别 是 一 17、 一 18 和 8， 最 后 校准 后 的 
色谱 示 于 图 5-70 (D, 

原始 的 GC-MS 数据 采用 的 是 16 组 禁 食 过 夜 糖尿 病人 的 血浆 样本 ,采用 的 仪器 为 日 本 
岛 津 的 GC2010A 气相 色谱 和 GCMS-QP2010 联 用 质谱 仪 。 图 5-71 (a) 为 经 过 airPLS 算 
法 04 (三 10!，order 一 2) 扣除 背景 之 后 的 色谱 数据 。 经 过 CAMS 算法 校准 后 的 结果 示 于 
图 5-71 (b)， 从 图 中 的 局 部 放大 图 可 以 看 到 更 清晰 的 校准 结果 ， 在 未 校准 的 谱 峰 中 ， 可 
以 很 明显 地 看 到 样本 之 间 的 谱 峰 存在 明显 的 漂移 ， 在 校准 后 的 相同 区 域 局 部 放大 图 中 ， 
可 以 明显 地 看 到 所 有 的 谱 峰 都 已 被 校准 好 。 图 5-71 的 下 部 是 色谱 校准 前 后 的 整体 灰 度 图 ， 
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CMS 校准 后 的 GC-MS 指 纹 
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利用 CAMS 算法 校准 GC-MS 色谱 数据 的 结果 


从 图 5-71 € 下 半 部 可 以 明显 看 到 未 经 





校准 的 色谱 峰 参 差 不 齐 ， 显 示 为 不 规则 的 线 。 校 准 





之 后 的 整体 效果 示 于 图 5-71 (b)， 先 前 的 不 规则 线 已 变 为 直线 ， 说 明 此 时 各 个 样本 的 谱 峰 


已 得 到 很 好 的 校准 。 








LC-MS 数据 采用 的 是 A. Saghatelian 提供 的 R 开源 包 faahKO 里 的 数据 i 。 其 原始 
数据 示 于 图 5-72 (a)， 可 以 明显 看 到 两 条 色谱 的 数据 随 着 时 间 的 变化 而 发 生 漂 移 。 利 





用 CAMS 算法 校准 后 的 效果 如 图 5-72 


改善 


Ir 








GC2010A 气相 色谱 和 GCMS-QP2010 HX 





模拟 色谱 数据 采用 真实 的 GC-MS cds 93 UJ LE Be b E. E HH Us y H s i3 


(bo 所 示 ， 可 以 看 到 校准 后 的 色谱 图 明显 得 到 











k itj 
用 质谱 仪 。 采 用 经 剪 切 后 的 简单 模拟 色谱 数据 可 以 


SH HEU YS CAMS 算法 的 校准 结果 。 原 始 数 据 示 于 图 5-73 (a)， 其 中 1 表示 参考 谱 ，2 代表 


待 校 谱 。 经 过 计算 可 以 得 到 ， 待 校 谱 上 入 


0.9819 和 39。 如 果 从 谱 峰 相似 度 的 角度 
能 被 校准 到 参考 谱 的 第 二 个 谱 峰 ， 


Slack—30) 得 到 的 结果 ， 从 图 可 以 看 到 























的 。 

















图 5-73 (d) 是 月 


有 一 个 谱 峰 与 参考 谱 第 一 个 谱 峰 的 相似 度 和 漂移 点 分 
别 是 0.9746 和 42， 然 而 待 校 谱 上 第 一 个 








谱 峰 与 参考 谱 第 二 个 谱 峰 的 相似 度 和 漂移 点 分 别 是 
考虑 的 话 ， 其 两 者 的 相关 系数 都 很 接近 ， 且 更 有 可 
日 相关 最 优化 规整 COW 算法 (Seg=50, 
，COW 算法 将 待 校 谱 的 第 一 个 谱 峰 校准 到 参考 谱 的 











第 一 个 谱 峰 ，COW 算法 校准 的 结果 在 没有 质谱 信息 比 对 的 情况 下 是 比较 难 估 计 其 准确 性 
通过 谱 峰 和 质谱 信息 对 比 ， 得 到 待 校 
度 为 0. 208， 而 待 校 谱 第 一 个 谱 峰 的 质谱 


谱 第 一 个 谱 峰 的 质谱 与 参考 谱 的 第 一 谱 峰 矩阵 相似 
与 参考 谱 的 第 二 谱 峰 的 矩阵 相似 度 为 0. 999。 因 而 
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利用 CAMS 算法 校准 LC-MS 色谱 数据 结果 





正确 的 校准 应 该 是 待 校 谱 的 第 一 个 谱 峰 与 参考 谱 的 第 二 个 谱 峰 对 齐 ，CAMS 算法 校准 的 结 
果 如 图 5-73 (oO. ， 由 于 充分 利用 了 联 用 仪器 的 质谱 信息 ，CAMS 算法 得 到 的 校准 结果 更 加 
精确 和 可 靠 。 

在 本 节 中 ， 利 用 矩阵 相似 性 来 评价 待 校 谱 的 谱 峰 和 参考 谱 谱 峰 之 间 的 质谱 相似 性 。 在 色 
谱 的 谱 峰 段 中 ， 其 峰 顶 处 相对 应 的 质谱 拥有 最 好 的 信 品 比 ， 因 而 取 峰 顶 周围 几 个 点 的 质谱 进 
行 相似 度 计算 得 到 的 结果 最 好 。 本 节 对 同一 个 谱 峰 所 对 应 的 质谱 取 不 同 的 点 数 进行 比较 ， 结 
果 示 于 表 5-20。 可 以 看 出 采用 和 矩阵 相似 度 计算 得 到 的 结果 较 采 用 两 变量 相似 度 计 算得 到 的 结 
果 更 好 ， 而 且 和 矩阵 相似 度 计 算 的 结果 较为 稳健 。 由 表 5-20 可 以 得 到 ， 建 议 采 用 的 色谱 窗口 
大 小 为 3 或 5。 在 本 节 的 算法 中 ,采用 的 窗口 大 小 为 3。 


























色谱 窗口 大 小 对 质谱 相似 度 的 影响 


窗口 大 小 1 3 5 7 





r 0. 9761 0. 9886 0. 9886 0. 9885 


在 本 节 中 ， 将 CAMS 算法 与 目前 流行 的 色谱 校准 算法 进行 比较 ， 以 进一步 讨论 CAMS 
算法 特性 。 在 色谱 校准 算法 的 比较 中 ， 一 般 采 用 平均 相似 度 来 评价 校准 的 结果 。 在 本 节 中 ， 
CAMS 算法 与 目前 常用 的 COW (segment 一 80，slack 一 30) 算法 和 RAFFT (shift=80) 算 
法 进行 比较 ， 采 用 的 数据 是 上 文 的 GC-MS 数据 。 比 较 的 结果 如 表 5-21 所 示 ， 从 表 5-21 可 
以 得 到 以 下 结论 : 由 于 CAMS 充分 利用 了 质谱 信息 ， 其 校准 得 到 的 色谱 相似 度 最 好 ; 
@ 在 三 种 算法 的 所 用 的 时 间 中 ，RAFFT 运算 速度 最 快 , 但 CAMS 算法 由 于 采用 快速 傅 里 时 
计算 交叉 相关 ， 所 以 其 速度 也 是 可 以 接受 的 ; OHF CAMS 利用 Haar 小 波 进行 谱 峰 检测 并 
利用 质谱 信息 确定 最 佳 的 漂移 候选 点 数 ， 所 以 其 不 会 更 改色 谱 的 谱 峰 形状 。 
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CAMS 算法 和 COW 算法 校准 结果 比较 
Ca) 模拟 色谱 图 ;(b) 候选 漂移 点 数位 置 的 质谱 ; (c) CAMS 校准 ; (D COW 校准 








三 种 校准 算法 的 比较 








算法 r 计算 时 间 /s 
COW 0. 9283 3. 26254: 0. 0366 
RAFFT 0. 9564 0. 00380. 000 
CAMS 0. 9586 0. 06200. 0007 





结合 Haar 小 波 变 换 、 快 速 傅 里 叶 交 叉 相 关 和 质谱 信息 ， 提 出 了 一 种 简单 实用 、 人 快速 可 
靠 的 色谱 校准 CAMS 算法 。 通 过 模拟 色谱 数据 、GC-MS 数据 和 LC-MS 数据 的 测试 ， 








CAMS 算法 具有 人 快速、 准确 和 可 靠 等 优点 。 通 过 与 多 种 目前 流行 的 校准 算法 比较 ，CAMS 
算法 不 会 改变 谱 峰 形状 并 且 可 以 很 好 地 处 理 色 谱 谱 峰 非 线性 漂移 问题 。 由 于 CAMS 算法 使 
用 了 质谱 信息 以 确定 谱 峰 的 漂移 点 数 ， 因 而 可 以 保证 得 到 较为 准确 可 靠 的 结果 。 
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图 6-1 给 出 了 一 个 由 德国 著名 分 析 化 学 家 Danzer 教授 描绘 的 化 学 量 测 的 全 过 程 的 示意 
图 [中 。 从 图 可 以 看 出 ， 化 学 量 测 的 全 过 程 实际 就 是 一 个 解决 实际 分 析 问 题 的 全 过 程 。 它 从 
采样 和 选择 分 析 方 法 开始 ， 经 化 学 量 测 的 试验 设计 、 量 测 过 程 的 控制 和 优化 、 分 析 仪 器 所 得 
信号 的 处 理 、 各 类 分 析 仪 器 数据 的 定性 定量 分 析 ， 再 到 分 析 数 据 的 评价 与 解释 、 分 析 结 果 的 
统计 推断 、 分 析 信 息 对 研究 目标 的 解释 ， 直 至 对 解决 问题 的 有 用 决策 信息 的 提取 。 所 以 ， 化 
学 量 测 过 程 是 一 个 很 复杂 而 且 内 涵 极 其 丰富 的 过 程 ， 它 每 一 步 的 有 效 完 成 实际 都 包括 了 相当 
丰富 的 内 容 ， 需 要 有 很 多 关于 化 学 、 数 学 和 物理 的 基础 知识 。 如 果 说 经 典 的 分 析 化 学 主要 是 
以 “溶液 平衡 ”为 基础 ， 那 么 ,现代 分 析 化 学 则 是 一 门 包括 如 何 有 效 地 进行 各 种 化 学 试 样 的 
处 理 〈 包 括 不 同化 学 物质 的 提取 、 分 离 和 纯化 等 化 学 基础 )、 各 种 有 关 分 析 仪 器 及 其 各 种 零 
部 件 的 作用 和 意义 的 理解 所 需 的 物理 和 电子 学 知识 〈 物 理 基础 ) 和 结构 化 学 知识 〈 如 各 种 波 
谱 的 定性 定量 及 结构 解析 )， 以 及 怎样 进行 最 优 采 样 、 设 计 实验 或 选择 最 优化 学 量 测 方法 ， 
并 通过 解析 化 学 量 测 数据 以 最 大 限度 地 获取 化 学 及 其 相关 信息 〈 数 学 基础 ， 化 学 计量 学 ) 的 
一 门 综合 性 极 强 的 化 学 分 支 学 科 。 
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进行 化 学 量 测 的 基本 目的 是 获取 有 关 物 质 系统 的 化 学 成 分 的 定性 定量 以 及 被 测 物质 的 结 
构 方面 的 信息 ， 更 为 重要 的 是 ， 它 还 得 为 解决 问题 提供 有 用 的 决策 信息 ， 故 遍 塞 尔 
(Kaiser) 在 有 关 分 析 方 法 基础 的 专著 中 [下 ， 界 定 分 析 化 学 学 科 的 内 涵 为 取得 所 研究 的 物质 
的 组 成 知识 的 有 计划 的 信息 过 程 。 卡 特 曼 (Kateman) I 从 三 个 方面 阐述 分 析 化 学 的 任 
务 : 中 利用 已 有 的 分 析 方 法 ， 提 供 关 于 物质 化 学 成 分 的 信息 一 日常 例 行 分 析 工 作 ;， 包 研究 
利用 不 同学 科 的 原理 、 方 法 取得 有 关 物 质 系统 的 相关 化 学 信息 的 过 程 一 一 分 析 化 学 的 科学 研 
究 工作 ; 研究 利用 现 有 分 析 方 法 取得 关于 物质 系统 的 信息 的 策略 一 一 分 析 实 验 的 组 织 工 作 。 
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柯 瓦 尔 斯 基 (Kowalski》 在 一 篇 题 为 “分 析 化 学 作为 信息 科学 ”的 论文 [中 中 ， 指 出 分 析 化 
学 发 展 史 正经 历 极为 重要 的 时 期 。 这 个 时 期 对 分 析 化 学 学 科 的 重要 性 ， 是 与 现代 科学 与 社会 
发 生 的 一 系列 重大 变化 相关 联 的 。 这 种 重大 变化 首先 源 于 计算 机 科学 与 信息 科学 的 发 展 。 该 
文 援引 美国 科学 基金 会 的 报告 ， 认 为 信息 已 成 为 美国 社会 的 极 重要 组 成 部 分 ， 约 半数 的 劳动 
力 从 事 与 信 息 相关 的 工作 ， 挣 取 一 半 以 上 的 劳动 收入 。 在 这 样 一 个 信息 具有 如 此 重要 的 地 位 
的 社会 中 ,分析 化 学 起 什么 作用 ? 该 文 作者 认为 ， 分 析 化 学 现在 是 ， 而 且 过 去 也 一 直 是 一 门 
信息 科学 。 在 化 学 的 各 个 分 支 学 科 中 ， 分 析 化 学 担负 的 任务 与 其 他 分 文学 科 的 不 同 之 处 ， 就 
在 于 分 析 化 学 的 研究 对 象 ， 不 是 直接 提供 某 种 具体 的 信息 ， 例 如 无 机 材料 和 有 机 材料 ， 而 是 
提供 与 这 些 材料 的 化 学 成 分 和 结构 相关 的 信息 ， 研 究 获取 这 些 信息 的 最 优 方法 与 策略 。 当 
然 ， 分 析 化 学 工作 者 是 与 其 他 化 学 工作 者 分 工 而 又 合作 ， 共 同 去 完成 生产 与 科研 向 化 学 提出 
的 使 命 的 。 不 但 分 析 化 学 与 无 机 化 学 、 有 机 化 学 等 传统 的 化 学 分 支 学 科 的 关系 如 此 ， 分 析 化 
学 与 一 些 新 兴 的 边缘 学 科 如 环境 化 学 的 关系 亦 是 如 此 。 例 如 ,在 IUPAC 第 30 届 学 术 大 会 
上 关于 “环境 的 挑战 ”的 学 术 讨 论 中 ， 出 现 这 样 的 学 术 报 告 题目 :“ 分 析 数 据 的 生物 学 意 
义 一 一 所 有 环境 课题 都 源 于 分 析 化 学 家 !1”r 引 。 将 分 析 化 学 认 作 通过 化 学 测量 而 获取 数据 ， 
且 继 续 提炼 化 学 信息 的 科学 ， 并 不 是 说 分 析 化 学 发 展 到 今天 才 具 有 这 种 性 质 ， 也 并 不 完全 是 
由 于 信息 对 当代 社会 的 重要 性 ， 人 们 才 有 意 强调 这 一 和 事实。 然而， 在 分 析 化 学 得 到 飞速 发 展 
的 今天 ， 重 新 认识 分 析 化 学 作为 通过 化 学 量 测 来 提供 化 学 信息 的 科学 这 一 性 质 ， 反 映 了 分 析 
化 学 的 新 发 展 ， 而 且 这 一 新 发 展 可 能 还 是 质 的 飞跃 。 那 就 是 ， 分 析 化 学 工作 者 已 不 仅 是 单纯 
的 分 析 数 据 的 提供 者 ， 而 是 解决 实际 问题 的 有 用 化 学 信息 的 提供 者 。 


一 、 现 代 分 析 化 学 面临 的 机 遇 与 挑战 


分 析 化 学 学 科 正 经 历 着 巨大 的 变革 [~9 。 众 所 周知 ， 由 于 近年 来 物理 学 、 电 子 学 、 信 
息 科学 、 生 命 科 学 的 飞速 发 展 ， 各 种 新 型 分 析 仪 器 相 继 问 直 ， 萌 日 的 以 化 学 分 析 为 主 的 经 典 
分 析 化 学 已 发 展 成 为 一 门 包括 众多 仪器 分 析 (色谱 分 析 ， 电 化 学 分 析 ， 光 化 学 分 析 ， 波 谱 分 
析 ， 质 谱 分 析 ， 化 学 生物 传 感 、 热 分 析 ， 放 射 分 析 ， 表 面 分 析 ， 结 构 分 析 ， 芯 片 分 析 等 ) 为 
主 的 现代 分 析 化 学 。 正 因为 分 析 手 段 的 不 断 扩展 ， 广 大 分 析 化 学 家 们 亦 感 到 以 “溶液 平衡 
为 基础 的 经 典 分 析 化 学 已 很 难 满足 现代 分 析 化 学 学 科 发 展 的 需求 ， 致 使 Leihaisky 的 “不 管 
你 喜欢 不 喜欢 ， 化 学 正在 走出 分 析 化 学 ”的 名 言 曾 经 广 为 流 传 。 基 于 这 些 情况 ， 近 年 来 ， 在 
世界 范围 内 ， 科 学 界 和 分 析 化 学 界 开 展 了 “化 学 正在 走出 分 析 化 学 “化 学 仍 留 在 分 析 化 学 ” 
和 所 谓 “分析 物 理 ”“ 分 析 科 学 ”的 热烈 议论 。1983 年 11 月 和 1989 年 10 月， 在 维也纳 还 
分 别 召 开 了 第 一 次 和 第 二 次 “国际 分 析 化 学 的 哲学 和 历史 会 议 ”， 探 讨 了 分 析 化 学 哲学 的 某 
些 基本 问题 。 为 更 好 地 理解 分 析 化 学 ，1992 年 ， 欧 洲 分 析 化 学 家 在 德国 《Fresennius》 分 析 
化 学 杂志 上 还 专门 组 织 了 一 次 以 “分 析 化 学 一 一 今天 的 定义 和 解释 ”为 题 的 一 次 讨论 1 。 
所 有 这 些 现 象 都 在 雄辩 地 告诉 人 们 ， 分 析 化 学 学 科 正 处 在 一 个 急剧 分 化 的 高 速 发 展 时 期 。 

然而 ， 无 论 这 种 分 析 手 段 上 的 分 化 发 展 如 何 迅猛 ， 有 一 点 十 分 明确 ， 即 分 析 化 学 学 科 所 
研究 的 对 象 〈 化 学 样本 ) 及 其 目的 (结构 定性 和 组 分 定量 ) 始终 未 变 。 其 原始 定义 “分 析 化 
学 是 人 们 获得 物质 化 学 组 成 和 结构 信息 的 科学 “5 仍然 十 分 明白 和 准确 。 不 管 是 从 事 电化 学 
分 析 、 波 谱 分 析 、 光 化 学 分 析 还 是 从 事 色 谱 或 其 他 仪器 分 析 的 研究 工作 的 分 析 化 学 工作 者 ， 
都 得 与 样本 打交道 ， 都 得 通过 样本 进行 化 学 预 处 理 、 继 而 进行 测量 和 数据 解析 来 获得 该 试 样 
的 化 学 组 成 (包括 不 同形 态 ) 和 结构 的 定性 定量 信息 。 从 这 一 视点 来 看 ， 分 析 化 学 作为 一 门 
化 学 分 支 学 科 仍 为 一 完整 整体 ， 是 化 学 研究 领域 中 的 一 个 分 支 学 科 。 诚 然 ， 由 于 采用 不 同 的 
分 析 手 段 ， 使 用 不 同 仪器 的 分 析 工 作者 所 需 知 识 结构 不 尽 相 同 ， 研 究 内 容 亦 存在 差异 ， 可 在 
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整个 的 分 析 过 程 中 ， 却 始终 存在 着 共同 的 基础 与 目标 。 这 种 情况 正如 美国 《分 析 化 学 》 的 主 
编 Murray 在 题 为 《化 学 量 测 科学 》 一 文中 指出 : “用 拓展 的 眼光 来 看 待 今天 的 分 析 化 学 是 
有 益 和 有 帮助 的 ， 它 的 发 展 已 使 之 成 为 一 门 创造 和 应 用 新 概念 ， 新 原理 和 仪器 的 策略 来 测量 
化 学 体系 及 其 组 分 的 学 科 ， 简 言 之 , 分 析 化 学 已 成 为 一 门 化 学 量 测 科学 ,i 。 最 近 ， 
Danzer 在 其 题 为 《分 析 化 学 一 一 理论 及 其 量 测 基础 》 一 书 中 给 出 了 一 个 更 为 精确 的 定义 : 
“分 析 化 学 是 一 门 化 学 量 测 学 科 。 其 主要 目标 是 研究 分 析 信 号 的 产生 、 人 处理 和 评价 ， 从 而 获 
得 有 关 物 质 的 化 学 组 成 和 结构 的 信息 ”1 下。 同时 ，Danzer 还 认为 ， 与 物理 中 有 关 长 度 、 质 
量 等 直接 测量 不 同 ,分 析 化 学 中 所 遇 到 的 化 学 量 测 大 都 是 通过 复杂 仪器 的 测量 而 间接 获得 ， 
所 得 数据 的 解析 和 化 学 信息 的 提取 将 比 物 理 中 的 直接 量 测 要 难 。 我 国 化 学 界 前 辈 徐 寿 先生 认 
A. ESSA" 考 质 求 数 之 学 ， 万 格物 之 大 端 ， 而 为 化 学 之 极致 也 ”。 所 谓 考 质 ， 即 定性 
分 析 ; 所 谓 求 数 ， 即 定量 分 析 。 徐 寿 认 为 ， 对 物质 进行 定性 与 定量 分 析 是 格物 一 一 今日 的 
“物质 科学 ”(physical science) 的 主体 ， 是 化 学 的 最 高 目标 。 所 以 分 析 化 学 实质 上 是 一 门 综 
合 性 极 强 的 化 学 分 支 学 科 。 随 着 物理 学 、 电 子 学 、 信 息 科 学 、 生 命 科 学 的 飞速 发 展 ， 分 析 化 
学 家 如 何 更 有 效 地 发 展 和 充分 运用 好 手中 的 各 类 新 型 分 析 仪 器 ， 以 满足 社会 发 展 的 各 种 需 
求 ， 当 是 分 析 化 学 家 目前 值得 思考 的 一 个 重要 问题 。 

图 6-2 示 出 了 Danzer 在 其 《分 析 化 学 一 一 理论 及 其 量 测 基础 》 书 中 的 一 幅 分 析 化 学 发 
展示 意图 ， 其 中 标 出 了 近年 来 分 析 化 学 由 于 社会 需求 和 挑战 而 面临 的 新 任务 而 产生 出 来 的 一 
些 新 分 支 。 从 图 可 以 看 出 ， 随 着 科学 技术 的 发 展 ， 对 分 析 化 学 的 要 求 越 来 越 高， 各 种 类 型 的 
新 型 分 析 仪 器 也 在 不 断 出 现 ， 以 满足 社会 的 需求 和 挑战 。 从 20 世纪 80 年 代 起 ， 此 图 中 提出 
的 需求 和 挑战 都 与 复杂 多 组 分 体系 的 仪器 分 析 分 不 开 ， 如 有 机 微量 分 析 、 物 种 鉴别 分 析 〈 色 
谱 分 析 、 色 谱 指纹 图 谱 技术 ) 、 无 损 分 析 〈 近 红外 光谱 为 其 代表 ) 、 基 因 与 蛋白 分 析 〈 毛 细 管 
电泳 、 液 相 色谱 与 串联 质谱 等 、 蛋 白 组 学 )、 高 通 量 分 析 〈 和 蛋白 组 学 、 代 谢 组 学 、 中 药 植物 
药 分 析 、 香 精 香料 分 析 等 )， 而 这 些 都 正 是 本 书 要 进行 讨论 的 问题 。 另 外 ， 如 果 我 们 遵循 着 
“分 析 化 学 是 一 门 化 学 量 测 学 科 ” 的 思路 ， 就 可 以 发 现 ， 分 析 化 学 学 科 当 今 的 变革 不 是 “化 
学 正在 走出 分 析 化 学 ”， 而 是 “基于 物理 、 生 物 原理 ， 但 能 产生 化 学 信号 的 各 类 新 仪器 ” 正 
在 走 进 分 析 化 学 ， 从 而 使 分 析 化 学 家 手中 拥有 更 多 的 化 学 量 测 工具 和 手段 ， 为 分 析 化 学 家 解 
决 各 学 科 发 展 所 面临 的 复杂 的 分 析 难 题 提 供 了 更 有 力 的 武器 。 如 何 更 有 效 地 使 用 分 析 仪 器 ， 
并 有 效 地 通过 这 些 复杂 的 化 学 量 测 工具 和 手段 ， 获 取样 本 中 科学 家 们 和 从 事 各 类 研究 所 需 的 














































































































































































































分 析 : 健康 
无 损 分 析 : 健 
康 ， 医 药 研发 
有 机 微量 分 析 : 物种 鉴别 ， 
WP. Eas 
微 区 与 分 布 分 析 : 
微 电 子 原 件 ， 计 算 机 
超 微量 分 析 : 微 电 子 
元 件 的 高 纯 材 料 
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微量 分 析 : 材料 科学 
(钢铁 ， 人 合金， 塑料 ) 
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芭 本 光 确 ”由 经 济 和 社会 需求 和 刺激 而 产生 出 来 的 一 些 分 析 化 学 新 分 支 
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有 关 的 化 学 组 成 和 结构 信息 ， 以 及 样本 中 包含 的 其 他 各 种 有 用 的 化 学 信息 ， 也 是 目前 分 析 化 
学 家 急需 解决 的 一 个 新 问题 。 

本 书 作 者 就 试图 从 这 一 角度 出 发 ， 在 讨论 不 同 分 析 仪 器 所 产生 信息 的 共同 特性 的 基础 
上 ， 力 图 找到 可 供 从 事 不 同 分 析 化 学 分 文学 科研 究 的 科学 研究 工作 者 共同 使 用 的 一 类 “ 抽 
象 ” 的 样本 定性 定量 解析 及 模式 分 析 和 识别 的 新 方法 ， 以 解决 复杂 多 组 分 分 析 体 系 的 定性 定 
量 和 结构 解析 ， 以 及 各 种 样本 定性 识别 及 分 类 的 难点 问题 。 可 以 预期 ， 随 着 分 析 仪 器 的 不 断 
发 展 ， 获 得 样本 化 学 信息 的 方式 也 将 变 得 更 为 直接 和 方便 ， 在 此 基础 上 ， 将 其 更 有 效 地 用 于 
各 种 不 同 领域 的 决策 信息 的 开发 分 析 (exploiting analysis? ， 也 必 将 成 为 分 析 化 学 发 展 的 新 趋势 。 


二 、 化 学 计量 学 的 多 变量 解析 思路 


经 典 分 析 化 学 的 基点 是 以 单 点 数据 (标量 ) 为 基础 ， 如 某 一 物理 和 化 学 的 信号 与 分 析 体 
系 中 某 一 待 测 物 质 存 在 某 种 对 应 的 数量 关系 (一般 为 线性 关系 )， 分析 工作 者 就 可 借 此 对 该 
化 学 物质 进行 定性 定量 分 析 。 值 得 指出 的 是 ， 本 书 所 论 及 的 多 变量 方法 与 上 述 经 典 方 法 在 概 
念 上 已 有 了 本 质 区 别 ， 它 不 只 是 用 几 个 相应 测量 点 来 求解 的 传统 多 组 分 同时 测定 的 简单 推 
广 ， 而 是 有 一 个 从 标量 校正 向 矢量 、 和 矩阵 ， 甚 至 是 张 量 数据 解析 的 概念 性 飞跃 。 由 于 矢量 
(或 矩阵 、 张 量 ) 数据 比 标量 〈 单 点 数据 ) 所 含 信息 丰富 得 多 ， 借 助 近 年 来 数学 、 统 计 学 和 
计算 机 科学 的 新 发 展 ， 由 此 就 可 能 产生 很 多 新 的 分 析 方 法 ， 它 们 可 解决 很 多 在 标量 分 析 中 被 
认为 是 不 可 能 ， 甚 至 难以 想象 的 分 析 化 学 问题 ， 为 分 析 工 作者 开辟 了 一 个 和 新 的 研究 领域 。 
可 以 说 ， 多 元 校正 与 多 元 分 辩 是 化 学 计量 学 研究 中 的 最 主要 任务 ， 也 是 分 析 化 学 计量 学 中 的 
最 有 创造 性 的 一 部 分 内 容 。 更 为 重要 的 是 ， 借 助 化 学 计量 学 的 多 变量 解析 方法 ， 从 这 些 分 析 
仪器 中 不 仅 可 以 得 到 化 学 数据 ， 还 可 得 到 很 多 有 关 解 析 化 学 结构 的 信息 ， 如 将 这 些 方法 与 化 
学 计量 学 中 发 展 的 多 元 分 辨 的 方法 结合 起 来 ， 甚 至 可 望 无 须 特 殊 分 离 而 直接 在 线 对 复杂 混合 
体系 进行 定性 定量 和 结构 解析 (参见 图 6-3 和 图 6-6) ;此 外 ， 采 用 多 变量 解析 方法 ， 结 合 分 
析 仪 器 ， 可 获得 表征 样本 特征 的 所 需 信 息 (参见 图 6-4 和 图 6-5)， 还 可 望 对 这 些 化 学 波谱 或 
色谱 信息 直接 进行 样本 定性 分 析 (这 些 任务 实际 已 逐步 开始 成 为 分 析 化 学 的 主要 任务 ， 如 中 
药 质 量 控 制 、 香 精 香料 识别 与 质量 控制 等 ); 实际 上 ， 在 获得 这 些 有 关 体 系 的 化 合 物 的 定性 
定量 和 结构 信息 以 及 样本 定性 信息 之 后 ， 还 可 望 对 这 些 化 学 波谱 或 色谱 信息 直接 进行 模式 分 
析 和 模式 识别 ， 采 用 化 学 模式 识别 、 人 工 神 经 网 络 及 多 种 新 近 发 展 的 机 器 学 习 和 推理 的 方 
法 ， 如 支持 向 量 机 方法 等 ， 还 可 继续 对 这 些 所 获 化 学 信息 (包括 通过 多 元 校正 和 多 元 分 辨 所 
得 的 定性 定量 信息 ) 进行 直接 有 利于 决策 的 开发 分 析 Cexploiting analysis)， 从 而 将 分 析 化 
学 家 的 工作 与 直接 提供 有 用 的 决策 信息 联系 起 来 ， 可 望 改 变 分 析 化 学 家 长 期 被 认 作 只 是 单纯 
提供 定性 定量 数据 的 地 位 。 

为 此 ， 有 必要 首先 来 考察 一 下 现代 分 析 化 学 的 仪器 分 析 的 基本 特征 。 近 几 十 年 来 ， 大量 
新 型 仪器 (如 色谱 ， 光谱 ,波谱 ， 极 谱 ， 蕊 片 等 相继 问世 ， 尽 管 其 具体 内 容 存在 多 种 差 
别 ， 但 都 是 为 分 析 化 学 家 提供 一 个 “ 谱 ”( 多 变量 数据 )， 而 且 这 个 谱 包 含有 关 分 析 化 学 样本 
的 定性 〈 含 结构 ) 与 定量 信息 。 用 数学 语言 来 说 ， 大 多 数 的 分 析 仪 器 提供 的 是 矢量 类 型 的 数 
据 。 随 着 分 析 仪 器 的 不 断 进化 以 及 联 用 技术 的 采用 ， 很 多 仪器 还 可 产生 矩阵 (或 张 量 ) 类 型 
的 数据 信息 (如 GC-MS、GC-IR、HPLC-DAD、 荧 光 分 析 的 激发 发 射 光谱 、 多 维 核磁 共振 
谱 等 )。 经 典 分 析 化 学 的 校正 方法 只 以 单 点 数据 (标量) 为 基点 ， 如 光谱 以 最 大 吸收 峰 的 光 
吸收 、 色 谱 以 面积 等 来 解析 仪器 数据 ， 这 样 势 必要 丢失 很 多 有 用 信息 ; 对 于 产生 和 矩 阵 类 型 数 
据 的 仪器 ， 经 典 分 析 化 学 方法 则 更 是 无 能 为 力 了 。 这 也 向 分 析 化 学 工作 者 提出 了 一 个 新 问 
题 ， 即 从 这 些 矢量 或 矩阵 形式 的 数据 中 ， 是 否 能 抽取 出 比 单 点 数据 更 多 的 ， 而 对 分 析 化 学 工 
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作者 来 说 ， 又 是 十 分 重要 的 化 学 信息 呢 ? 在 以 后 的 讨论 中 我 们 即将 看 到 ， 近 年 来 迅速 发 展 的 
化 学 计量 学 对 此 给 出 了 肯定 的 回答 。 

化 学 计量 学 的 多 变量 解析 思路 ”一 般 说 来 ,常用 的 波谱 (包括 紫外 -可 见 光 谱 、 红 外 光 
谱 、 质 谱 和 核磁 共振 谱 ) 包含 了 化 学 物种 的 结构 信息 。 不 同 的 化 学 物质 一 般 都 有 不 同 的 波 
谱 ， 而 这 些 差 别 将 为 以 多 变量 分 析 为 基础 的 化 学 计量 学 提供 新 的 机 遇 。 图 6-3 对 矢量 与 单 点 
数据 的 信息 差别 给 出 了 简要 说 明 。 从 图 可 以 看 到 ， 如 果 只 对 波谱 数据 取 峰 值 ( 即 单 点 数据 )， 
是 无 法 区 别 混合 信号 的 。 但 是 ， 如 采用 矢量 数据 ， 从 矢量 的 角度 来 处 理 波 谱 ， 它 们 不 但 是 可 
以 区 分 的 ， 而 且 还 各 自 提供 了 不 同 的 结构 信息 ， 为 复杂 的 多 组 分 混合 体系 分 析 提 供 了 新 的 定 
性 定量 分 析 思 路 ， 为 纯化 合 物 的 定性 或 混合 物体 系 的 结构 解析 提供 了 新 的 信息 ， 为 分 析 化 学 
的 发 展 提供 了 新 的 机 遇 。 
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b 
a，b 分 别 表 示 一 种 化 学 a，b 意 义 同 单 点 数据 ， 因 不 同 物种 
物种 ， 因 它们 都 在 某 一 波 具有 不 同 波谱 矢量 ， 故 在 矢量 空间 中 





























长 存在 吸收 ， 故 共存 时 无 
从 辨析 
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表示 成 两 个 完全 不 同 矢 量 ， 这 为 它 
共存 时 的 辨析 提供 了 有 用 信息 


(于 时” 单 点 数据 与 矢量 数据 的 信息 差别 



































更 为 重要 的 是 ， 这 些 谱 矢 量 ， 特别 是 色谱 ， 还 可 用 来 表征 不 同 的 复杂 样本 (参见 图 6-4 
和 图 6-5)， 借 助 于 这 些 色谱 矢量 ， 人 们 还 可 能 对 不 同 的 中 药 进行 区 分 ， 这 就 为 复杂 样本 的 样 
本 定性 分 析 英 定 了 基础 ， 为 复杂 体系 的 剖析 和 模式 分 析 和 识别 提供 了 新 思路 。 

从 图 6-4 示 出 的 色谱 指纹 图 谱 中 可 以 清楚 地 看 出 ， 广 东 後 庆 、 广 西 玉 林 、 越 南 和 云南 
(从 上 至 下 ) 四 个 不 同 产 地 的 肉桂 皆 具 有 十 分 相似 的 化 学 组 分 ， 明 显 地 表现 出 了 植物 等 效 性 ; 
而 图 6-5 示 出 的 不 同 药材 ( 厚 村 和 陈皮 ) 的 气相 色谱 指纹 图 谱 显 示 ， 它 们 具有 明显 不 同 的 化 
学 组 分 ， 可 以 采用 化 学 分 析 将 它们 清楚 地 进行 区 分 和 识别 。 
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联 用 色谱 仪器 (包括 GC-MS, GCIR, HPLC-DAD, HPLC-MS/MS, HPLC-NMR) 
产生 的 数据 通常 为 矩阵 类 型 的 数据 (参见 图 6-6) 。 这 种 数据 通常 包含 了 两 方面 的 信息 ， 即 波 
谱 和 色谱 信息 。 正 如 图 6-6 所 示 ， 量 测 所 得 的 数据 和 矩阵 x 的 每 一 列 都 表示 不 同 检测 通道 上 的 
色谱 流出 信息 ， 每 一 行 都 表示 不 同色 谱 流 出 时 间 上 的 波谱 响应 信息 。 采 用 联 用 色谱 ， 一 个 样 
本 可 得 到 一 个 很 大 的 数据 和 矩阵， 通常 都 有 几 十 至 上 百 兆 字 节 的 信息 。 由 于 这 些 仪器 产生 的 数 
据 量 太 大 ， 一 般 的 分 析 化 学 实验 室 由 于 缺乏 有 效 的 相应 解析 方法 ， 大 都 对 它们 采用 简单 处 理 
或 丢弃 方法 ， 造 成 大 量 有 用 信息 的 浪费 。 下 面 将 可 以 看 到 ， 就 是 这 些 由 联 用 色谱 仪器 产生 的 
矩阵 数据 ， 包 含 了 复杂 样本 的 定性 定量 解析 所 需 信 息 ， 使 得 直接 对 复杂 样本 进行 定性 定量 
析 成 为 可 能 ， 其 至 还 为 复杂 混合 体系 的 在 线 结构 解析 提供 了 坚实 基础 。 


a 




























































































A 














ED BARCHE DL ERIT E KS E EE 2E BL B RET 


下 面 将 较为 详细 地 讨论 联 用 色谱 仪器 产生 的 矩阵 类 型 数据 的 几 个 主要 的 数学 特征 : 

CD 由 于 联 用 色谱 仪器 产生 的 是 矩阵 类 型 的 数据 ， 所 以 ， 它 具有 一 些 一 般 波谱 或 色谱 产 
生出 的 一 维 数据 不 具备 的 数学 特征 。 首 先 ， 量 测 抢 阵 的 秩 与 体系 的 化 学 组 分 数 存 在 着 一 一 对 
应 的 数量 关系 。 符 阵 的 秩 是 一 个 纯 数 学 概念 ， 通常 是 指 和 矩阵 的 最 大 线性 无 关 行 或 列 数 。 由 溉 
伯 - 比 耳 定 律 和 分 析 化 学 中 其 他 相应 定律 ， 有 如 下 等 式 成 立 : 






































A 
X —CS! = Mes! (6-1) 

i=] 
式 中 ，X 为 联 用 色谱 仪器 产生 的 数据 和 矩阵， 它 的 每 一 列表 示 不 同 检测 通道 (可 以 是 紫 
外 -可 见 光 谱 的 波长 ， 也 可 以 是 质谱 中 的 质 荷 比 ， 等 ) 上 的 色谱 ， 每 一 行 则 表示 不 同色 谱 流 
出 时 间 上 的 响应 波谱 。 在 上 式 中 ,A 为 体系 的 化 学 组 分 数 〈 如 不 考虑 仪器 的 量 测 误差 ， 且 
假设 体系 中 不 同化 学 组 分 都 具有 不 同 的 波谱 ， 则 可 直接 通过 求 该 矩阵 的 秩 来 求 得 体系 的 组 分 
数 )。 式 中 的 c; Ms; G51, 2, 0, A) 表示 的 是 该 体系 不 同化 学 组 分 的 纯 物 质 色谱 与 波 
谱 ， 它 们 的 解 出 将 对 该 体系 的 定性 定量 分 析 带 来 最 有 用 的 信息 。 有 关 这 一 方面 的 详细 讨论 ， 
将 在 复杂 黑色 分 析 体 系 的 解析 中 给 出 。 值 得 指出 的 是 ， 这 种 对 应 关系 不 仅 体现 在 整体 上 ， 而 
且 还 体现 在 不 同 保留 时 间 的 局 部 上 ， 即 不 同 子 体 系 组 分 数 与 该 体系 的 秩 也 相等 。 这 种 局 部 秩 
的 概念 为 数据 的 解析 提供 了 方便 ， 这 是 因为 色谱 能 将 一 个 很 复杂 的 分 析 体 系 沿 保留 时 间 方 向 
分 解 为 多 个 相对 简单 的 子 体系 。 这 样 ， 采 用 局 部 主 成 分 分 析 ， 渐 进 地 分 别处 理 这 些 相 对 简单 
的 体系 或 子 矩 阵 数 据 ， 成 为 解析 该 类 型 数据 的 主要 思路 。 一 般 说 来 ， 由 于 该 数据 矩阵 太 大 ， 
直接 用 数学 方法 来 简单 解析 整个 矩阵 实际 上 是 不 可 行 的 。 正 是 这 些 特 点 ， 使 解析 复杂 黑色 分 

析 体 系 成 为 可 能 。 
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(2) 联 用 色谱 产生 的 是 矩阵 类 型 的 数据 ， 所 以 ， 数 据 同时 包含 了 波谱 空间 与 色谱 空间 的 
言 息 ， 即 该 量 测 抢 阵 列 向 量 生成 的 是 体系 的 波谱 空间 ， 和 矩阵 行 向 量 生成 的 是 体系 的 色谱 空 
间 。 也 就 是 说 ， 对 于 联 用 色谱 产生 的 二 维 数据 ， 可 同时 从 波谱 空间 和 色谱 空间 来 研究 样本 ， 
也 可 分 别 从 这 两 个 空间 对 体系 进行 详细 研究 ， 为 直接 利用 这 样 的 仪器 进行 复杂 的 多 组 分 化 学 
体系 的 定性 定量 分 析 和 结构 解析 提供 了 难得 的 机 会 。 

(3) 由 联 用 色谱 仪器 产生 的 矩阵 类 型 的 数据 ， 还 可 能 部 分 提高 色谱 的 分 离 度 。 此 点 表面 
上 看 来 似乎 很 可 笑 ， 但 如 果 人 和 仔细 考察 此 类 数据 的 特点 ， 就 可 发 现 这 确实 是 此 类 数据 的 一 个 不 可 和 忽 
略 的 优势 。 联 用 色谱 仪器 产生 的 矩阵 类 型 数据 增强 色谱 分 离 能 力 的 功效 可 由 网 6-7 形象 表示 出 。 
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联 用 色谱 仪器 提高 色谱 分 离 能 力 的 示意 图 
(a) 色谱 峰 完全 基线 分 离 ，(b) 相 邻 色谱 峰 部 分 重 倒 ，(c) 相 邻 色谱 峰 严重 重 和 

















从 上 图 可 以 看 出 ， 尽 管 在 图 6-7 (bo. 中 相 邻 色谱 峰 发 生 了 部 分 重奏 ,但 是 ， 由 于 每 一 
个 化 学 组 分 都 存在 所 谓 的 纯 组 分 流入 流出 区 域 ， 通 过 化 学 计量 学 多 变量 色谱 峰 纯 度 检 验方 
法 ， 可 容易 地 直接 得 到 与 图 6-7 0 中 完全 一 致 的 纯 组 分 光谱 [BUE 6-7 (d) 中 光谱 曲线 






































A 
1, 2 与 3]， 进 而 很 容易 地 通过 解 X —CS' — >)ycis! ， 得 到 三 个 组 分 的 纯色 谱 曲 线 。 因 此 ， 
i-l 
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借助 多 变量 的 光谱 分 析 方法 ， 图 6-7 (bo 与 图 6-7 Ca) 示 出 的 这 两 种 情形 下 的 分 离 程度 可 
以 视 为 完全 一 致 ， 即 利用 联 用 色谱 仪器 可 以 显著 提高 色谱 的 分 离 能 力 ， 而 这 种 能 力 的 提高 是 
常规 一 维 色谱 检测 不 可 能 具备 的 。 对 于 图 6-7 (CO 中 的 情形 ， 由 于 不 存在 第 二 个 化 学 组 分 的 
所 谓 纯 组 分 区 域 ， 那么 就 不 能 得 到 该 组 分 的 纯 光 谱 ， 进 而 直接 得 不 到 各 自 的 纯色 谱 曲 线 。 这 
类 重 共 色谱 峰 的 分 辨 ,已 在 本 书 第 五 草 展 开 了 详细 讨论 。 有 关 此 论点 的 详细 说 明和 讨论 ， 读 
者 可 参考 文献 [13]. 

从 以 上 讨论 可 以 看 到 ， 通 过 现代 化 学 量 测 空间 的 高 维 技术 ， 包 括 各 种 分 离 仪 器 和 波谱 仪 
器 的 联 用 技术 等 ， 化 学 计量 学 可 为 化 学 样本 空间 的 各 类 复杂 样本 快速 进行 定性 定量 分 析 、 物 
质 结构 解析 、 直 至 最 终 决 策 信息 的 抽取 提供 各 种 不 同 的 方法 ， 从 而 展现 了 现代 分 析 化 学 的 广 
阔 前 景 。 


三 、 化 学 计量 学 中 的 软 模型 和 硬 模型 


一 般 说 来 ， 有 关 分 析 化 学 中 单个 化 合 物 的 定性 定量 分 析 ， 采 用 常用 的 单 变量 最 小 二 乘 回 
归 和 标 样 比 对 丝 可 解决 问题 ， 所 以 ， 在 传统 的 分 析 化 学 的 课程 学 习 中 ， 数 学 要 求 是 很 低 的 ， 
一 般 认为 学 到 对 数 就 够 了 。 然 而， 随 着 分 析 仪 器 的 不 断 普 及 ， 对 复杂 体系 的 直接 分 析 的 需求 
越 来 越 高 ， 特 别 是 近年 来 化 学 计量 学 的 发 展 ， 在 分 析 化 学 中 引入 了 多 变量 的 解析 方法 ， 使 得 
分 析 化 学 学 科 对 数学 的 要 求 陡然 提升 ， 而 且 也 为 分 析 化 学 的 发 展 带 来 了 不 少 新 的 机 遇 。 就 是 
由 于 多 变量 的 解析 方法 的 引入 ， 特 别 是 主 成 分 回归 和 偏 最 小 二 乘 方法 的 出 现 ， 使 得 分 析 化 学 
中 的 多 组 分 同时 定量 分 析 变 得 十 分 简单 ;原由 统计 学 中 发 展 的 因子 分 析 技 术 由 Malinowski 
T 20 世纪 70 年 代 引 入 化 学 ， 借 助 线性 代数 中 秩 的 概念 ， 使 得 对 混合 体系 中 组 分 数 的 确定 成 
为 可 能 ， 这 就 为 随后 的 灰色 和 黑色 体系 的 分 析 英 定 了 理论 基础 ， 从 20 世纪 90 年 代 起 ， 由 于 
计算 机 科学 、 统 计 学 以 及 应 用 数学 的 飞速 发 展 ， 大 量 的 机 器 学 习 新 方法 、 数 据 发 气 新 方法 引 
入 化 学 和 分 析 化 学 ， 使 得 复杂 体系 的 模式 分 析 和 识别 、 谱 学 的 直接 定量 分 析 、 波 谱 的 结构 解析 
以 及 定量 结构 性 能 关系 等 方面 的 研究 得 到 长 足 发 展 ， 大 大 拓展 了 分 析 化 学 学 科 发 展 的 研究 方向 。 

由 于 化 学 计量 学 的 发 展 主要 依赖 于 多 变量 的 解析 思路 ， 所 以 ， 化 学 计量 学 的 新 方法 研究 
也 大 都 依赖 于 数学 建 模 ， 实 际 上 ， 在 化 学 计量 学 的 几 十 年 的 发 展 中 ,一 直 存在 着 两 种 建 模 的 
方法 ， 按 著名 统计 学 家 Breiman 的 说 法 ， 在 统计 建 模 中 ， 存 在 着 两 种 不 同 的 文化 0 ， 从 化 
学 计量 学 的 多 元 校正 研究 的 角度 来 说 ， 很 多 分 析 化 学 中 的 问题 ， 就 是 通过 化 学 测量 ， 获 得 自 
变量 数据 X 〈 或 称 为 预测 变量 ) 和 因 变 量 数据 y (或 称 为 响应 值 )， 通 常 在 化 学 计量 学 研究 
中 ， 自 变量 数据 XX 为 一 个 和 矩阵， 其 中 每 一 行为 样本 的 基本 特征 ， 通 常 为 一 个 测量 谱 (或 称 
为 预测 变量 )， 而 因 变 量 (或 称 为 响应 值 ) 数据 y 为 一 个 与 自 变量 数据 X 相对 应 的 矢量 数 
据 ， 其 中 每 一 个 元 素 ， 就 代表 了 样本 的 一 个 化 学 或 生物 测量 值 ， 然 后 通过 数学 模型 将 两 者 联 
系 起 来 ， 即 
































































































































响应 值 (y) = 了 (预测 变量 ， 随 机 噪声 ， 模 型 参数 ) = X) (6-2) 
这 种 情况 可 由 图 6-8 形象 表 出 : 





里 汶 ”化 学 计量 学 中 的 建 模 示 意图 


在 式 (6-2) "B. fC) 表示 抽象 的 函数 关系 ， 取 决 于 图 中 采用 的 数学 模型 一般 说 来 ， 
在 目前 化 学 计量 学 的 研究 中 存在 着 两 种 情况 ， 一 种 称 为 软 模 型 (soft modeling)， 一 种 称 为 
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硬 模型 (solid modeling)。 虽 然 两 种 情况 都 是 建 横 ， 但 是 ， 在 实际 建 模 时 ， 这 两 种 情况 在 处 
理 思路 、 模 型 校 验 和 结果 评价 方面 ， 差 距 却 很 大 ， 值 得 引起 注意 。 下 面 将 对 这 两 种 建 模 情 况 
在 处 理 思路 、 模 型 校 验 和 结果 评价 方面 进行 必要 讨论 ， 这 将 对 理解 本 书后 续 内 容 有 好 处 。 

首先 ， 讨 论 硬 模型 的 情况 。 对 于 分 析 化 学 中 的 这 种 模型 ， 因 所 发 展 的 相应 的 分 析 方 法 大 
都 基于 分 析 仪 器 中 的 组 分 加 合 定 律 ， 如 紫外 -可 见 光 谱 的 朗 伯 - 比 耳 定律、 质谱 加 合 原 理 、 红 
外 吸收 加 合 定律 等 ,具有 严格 的 化 学 物理 意义 ,一 般 说 来 ， 对 于 多 元 校正 模型 ， 只 要 所 得 结 
果 的 拟 合 效 果 好 ， 即 R? (模型 解释 的 方差 ) 高 ， 所 得 模型 残 差 与 量 测 误差 相当 ， 就 可 认为 
所 得 结果 是 可 取 的 ; 对 于 多 元 分 辨 模型 ， 除 先 考察 结果 的 拟 合 效果 外 ， 还 须 考察 分 辨 所 得 波 
谱 与 实际 波谱 的 相似 程度 ， 以 确定 所 得 结果 的 可 靠 性 。 对 本 书 而 言 ， 在 本 章 第 三 节 到 第 五 节 
讨论 的 解析 方法 ， 大 都 属于 硬 模型 的 解析 情况 ， 并 多 属于 线性 体系 ， 所 以 ， 对 于 这 些 方法 ， 
线性 代数 中 的 知识 为 其 主体 ， 统 计 学 基础 知识 主要 用 于 误差 分 析 。 对 于 硬 模 型 (solid mod- 
eling) 的 分 析 思 路 ， 图 6-9 给 出 了 一 个 简要 说 明 。 
















































































硬 模型 





上 一 一 | 数学 模型 已 知 X 























处 理 思路 : 谨慎 使 用 分 析 化 学 中 的 各 类 线性 加 和 定理 ; 
模型 校 验 : 考察 模型 的 拟 合 结果 ， 并 与 已 有 的 实际 波谱 进行 比较 ; 
结果 评价 : 分 析 实 际 量 测 误差 ， 并 与 模型 残 差 进行 比较 


化 学 计量 学 中 的 硬 模 型 建 模特 点 示意 图 


















































但 是 ， 对 于 “ 软 模型 ”多 变量 解析 方法 ， 由 于 这 些 方 法 面临 的 复杂 分 析 体系 ， 如 对 不 同 
种 类 的 中 药材 〈 或 植物 物种 的 化 学 分 类 与 鉴别 ) 的 分 类 与 真 伪 鉴 别 ， 不 同 疾病 患者 的 代谢 组 
学 分 析 、 和 蛋白 组 学 分 析 ， 粮 食 或 烟草 中 的 蛋白 质 、 脂 肪 、 糖 类 的 总 量 分 析 方 法 ， 能 源 化 学 中 
汽油 的 辛 烷 值 〈 或 油 品 标号 ) 测定 ， 等 ， 可 以 说 ， 对 于 这 些 体 系 的 分 析 一 般 都 不 存在 具有 严 
格 的 化 学 物理 意义 的 定理 和 理论 基础 ， 是 一 类 具有 很 多 模糊 信息 的 体系 。 同 时 还 应 注意 到 ， 
这 类 样本 的 分 析 并 不 仅 是 对 茶 种 化 合 物 的 定量 分 析 ， 还 是 多 种 化 学 物质 的 综合 效应 ， 是 一 种 
样本 整体 性 质 的 定性 分 析 ， 故 其 校正 模型 不 确定 〈 线 性 或 非 线性 未 知 ， 没 有 类 似 朗 伯 - 比 耳 
定律 作为 其 分 析 校 正 基 础 ); 同时， 波谱 中 的 响应 变量 在 定量 分 析 或 模式 分 析 与 识别 中 亦 不 
能 确定 ， 且 有 时 还 需要 用 原先 传统 化 学 或 物理 方法 所 得 定量 数据 作为 标杆 方法 建 模 ， 虽 化 学 
计量 学 采用 了 多 变量 分 析 的 思路 ， 借 统计 学 和 计算 机 科学 中 发 展 的 模式 识别 和 机 器 学 习 的 多 
种 方法 ， 可 以 对 此 类 分 析 系 统 进行 解析 ， 但 所 得 结果 却 特别 容易 发 生 “ 过 拟 合 ” (overfitting) 
危险 〈 参 见 本章 中 第 六 节 和 第 七 节 以 及 第 七 音 、 第 九 章 采用 的 建 模 方 法 )。 所 以 ， 如 仍 采 用 
前 述 硬 模型 的 解析 方法 ， 容 易 出 现 误导 情况 ， 应 特别 小 心 。 

实际 上 ， 这 类 样本 的 仪器 分 析 实 质 是 一 种 更 高 层次 的 复杂 多 组 分 体系 的 分 析 ， 在 本 书 
中 ， 将 它们 称 为 “广义 灰色 体系 ”。 所 以 ， 对 于 这 些 体 系 的 解析 建 模 ， 其 处 理 思路 、 模 型 校 
验 和 结果 评价 将 与 硬 模型 的 解析 大 不 相同 ， 由 于 式 6-2) 中 的 函数 关系 £C. ) 实际 是 未 知 
HJ. RARR 〈 线 性 或 非 线性 ) 无 法 确定 ， 所 以 ， 其 重点 将 主要 集中 于 考察 模型 的 预测 效 
果 ， 强 调 后 续 的 模型 预测 性 能 ， 模 型 评价 和 校 验 将 不 是 模型 的 拟 合 ， 即 R? 〈 模 型 解释 的 方 
差 )， 而 是 所 得 模型 的 预测 误差 ， 即 Q? 〈 模 型 在 预测 中 能 解释 的 方差 )。 如 有 可 能 与 数据 量 
测 误差 进行 比较 ， 也 不 应 该 采用 模型 残 差 (model residual) ， 而 应 该 采用 模型 的 预测 误差 。 
对 本 书 而 言 ， 在 本 章 第 六 节 和 第 七 节 以 及 第 七 章 、 第 九 章 采 用 的 建 模 方 法 ， 大 都 属于 软 模型 
的 解析 情况 。 所 以 ， 对 于 这 些 方法 ， 除 最 简单 ， 也 是 化 学 计量 学 中 最 通用 的 主 成 分 回归 
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Cprincipal Pan regression, PCR) 和 偏 最 小 二 乘 (partial least squares, PLS) 外 ， 





WH ES A 


合 等 。 在 这 里 ， 


泛 ， 是 本 书 的 一 个 难点 。 对 于 软 模型 的 分 析 思 


特别 值得 说 明 的 是 ， 对 此 类 体系 的 分 析 问 题 尚未 完全 解决 ， 目 前 还 


步 研 究 。 


一 些 目前 在 统计 学 和 计算 机 科学 中 发 展 的 新 型 
文 持 向 量 机 n vector machines, SVMs), 


trees. CART), boosting 建 模 (boosting modeling), 











模式 识别 和 机 器 学 习 的 方法 ， 如 
分 类 回归 树 (classification and regression 
随机 森林 (radom forests) 及 模型 融 


统计 学 、 线 性 代数 及 优化 方法 的 知识 将 成 为 其 主体 基础 ， 涉 及 面 也 较为 广 




















\ 路 ， 图 6-10 Z 


全 出 了 一 个 简要 说 明 。 


处 理 思 路 : 尽量 采用 多 种 现 有 解析 方法 进行 必要 比较 研究 ; 
模型 校 验 : 主要 考察 模型 的 预测 结果 ， 最 好 能 采用 模型 分 布 式 方法 进一步 校 验 ; 










































































结果 评价 ， 分 析 实 际 量 测 误差 ， 并 与 预测 误差 进行 比较 
化 学 计量 学 中 的 软 模型 建 模特 点 示意 图 
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一 、 张 量 校正 理论 


张 量 校正 理论 主要 由 Lorber’ ği Kowalski 等 [ 
次 的 基础 理论 的 重要 组 成 部 分 [7] 。 


简 言 之 ， 校 正 理 














分 析 化 学 中 的 校正 理论 








将 常用 的 经 典 分 析 化 学 中 的 灵敏 度 、 选 择 性 、 信 噪 比 、 检 测 下 限 以 及 结果 可 靠 性 评价 等 


广大 分 析 化 学 工作 者 广泛 接受 的 基本 概念 




















不 有 很 多 问题 有 待 进 一 


19 提 出 ， 这 可 看 作 构成 分 析 化 学 第 二 层 
论 就 是 分 析 化 学 中 的 定量 分 析 理 论 ， 它 





已 为 


， 拓 广 至 矢量 其 至 张 量 数据 ， 为 分 析 工 作者 针对 不 





同 分 析 体 系 ， 选 择 正确 定量 校正 方法 及 评价 分 析 结 果 的 可 靠 性 提供 理论 依据 。 

K 6-1 给 TEE e e \ 式 ， 在 此 ， 我 们 只 对 这 些 公 式 
的 意义 加 以 适当 说 明 ， Ne ia 参阅 本 章 多 元 校正 的 分 析 化 学 品 
质 因 数 和 可 靠 性 分 析 一 节 ， 有 兴趣 的 读者 还 E—5HdxÉ [18—22]. 

EXER 和 零 阶 到 二 阶 张 量 校正 理论 的 基本 公式 
一 阶 张 量 
零 阶 张 量 二 阶 张 量 
直接 校正 间接 校正 
r=cb+e r=Kc+e c=Rb+e MY=NYA 
c=r/b c—OK'K) IK'r b—R^c NAR x —rankCM) —rankC M | N) 


SEN —(Ar/Ac) —b 


NAS; — (I — KK;)r 


SEL;= || NAS; ll / | r || 
SEN;—|k; | 
= | a—K;Kj;orl 





ll. NAS || —1/ ll b || 
SEL — || NAS || /r 


SEN — || NAS || 





NAS wx —cyxy! 
SELn= || NAS: l/ | N l| —1 


SEN — || NASx | 





二 | 五 | 











第 六 章 “多 元 校正 与 多 元 分 辨 | sos | 








续 表 
一 阶 张 量 
零 阶 张 量 二 阶 张 量 
直接 校正 间接 校正 
S/N=r/e, S/N —e,/ || NAS; | 
LOD =ke, /b LOD; =ke, /SENi LOD — ke, || b || LOD — ke,/ || NASx |l 


























对 于 零 阶 张 量 ， 亦 即 标量 ,校正 模型 很 简单 ,r= 二 必 十 ce， 其 中 表示 仪器 响应 量 ，c 
示 待 测 物 的 浓度 ，e 表示 量 测 误差 ，e, 为 其 估计 量 。 对 于 这 样 的 量 测 模型 一 般 用 简单 最 小 
二 乘法 即 可 求解 。 对 此 校正 模型 ，IUPAC 给 出 了 分 析 化 学 家 常用 的 灵敏 度 、 选 择 性 、 信 噪 
比 和 检测 下 限 。 选 择 性 一 般 是 相对 于 共存 干扰 而 言 ， 对 一 含有 ?7 个 被 测 物 种 体系 ， 如 某 物 
种 i 的 灵敏 度 为 较 大 正 数 ， 其 余 物 种 的 灵敏 度 均 等 于 零 或 为 接近 噪声 的 响应 ， 则 称 该 分 析 方 
法 对 物种 i 具有 完全 选择 性 ， 反 之 ， 该 法 对 物种 i 的 选择 性 差 。 显 然 ， 对 于 标量 校正 模型 
rr 一 c 必 十 ce， 一 般 要 求 最 好 是 具有 完全 选择 性 ， 否 则 ， 待 测 物 的 定量 就 不 准确 了 。 

然而 ， 对 于 一 阶 张 量 校正 模型 ， 情 况 就 发 生 了 变化 。 首 先 考察 一 下 直接 校正 模型 + 二 
Kc 十 e， 其 中 , r 表示 混合 物 量 测 和 撩 量 ,，K 表示 该 混合 体系 所 含 物种 的 所 有 纯 物 种 量 测 谱 ， 
也 称 校 正和 矩阵 ，e 表示 待 求 的 混合 物 各 物种 的 浓度 矢量 ，e 为 量 测 误 差 矢量 。 对 于 这 样 的 校 
正 模型 ， 可 容易 地 用 多 元 最 小 二 乘 回 归 法 直接 求 出 ， 即 c= 二 (Ki'K) 1K'r 。 这 就 是 说 ， 对 于 
一 阶 张 量 校正 模型 ， 其 选择 性 将 大 大 提高 ， 即 在 定性 已 知 和 干扰 存在 下 ， 仍 可 定量 测定 待 求 物 
种 i 的 浓度 。 当 然 ， 为 此 需要 先 求 出 该 物种 的 所 谓 的 纯 分 析 信 号 矢量 NAS; Cnet analytical 
signal) ， 即 NAS; — I —K;K; )r， 其 中 ， 开 ;表示 删 去 了 该 混合 体系 待 求 物种 的 纯 物 种 量 测 
谱 ; 的 校正 矩阵 ，K; 表示 它 的 广义 逆 (参见 第 十 一 章 )。 求 得 纯 分 析 信 号 矢量 NAS; 后， 
直接 校正 模型 r=Ke+e 即 可 化 为 零 阶 张 量 模型 ， 继 而 用 表 6-1 所 列 公 式 可 求 得 所 有 的 分 析 
工作 者 常用 的 灵敏 度 、 选 择 性 、 信 噪 比 、 检 测 下 限 〈 详 细 推 导 参 见 本 章 第 三 节 )。 值 得 指出 
的 是 ， 如 果 各 纯 物 质量 测 谱 相 互 严 重重 全 或 相似 ， 就 可 能 导致 对 该 物种 定量 分 析 的 准确 度 下 
降 ， 甚 至 导致 该 分 析 体 系 成 为 “病态 ”体系 而 难以 准确 定量 (参见 本 章 第 三 节 )， 所 以 其 选 
择 性 还 未 达到 完全 选择 。 (对 于 间接 校正 模型 ， 也 可 求 得 所 有 的 分 析 化 学 家 常用 的 灵敏 度 、 
选择 性 、 信 品 比 、 检 测 下 限 ) 

如 果 可 更 进一步 得 到 二 阶 张 量 ， 即 矩阵 形式 的 量 测 数据 ， 例 如 激发 发 射 二 维 荧光 光谱 ， 
则 可 在 存在 未 知 干扰 的 存在 下 直接 对 待 测 物种 进行 定量 解析 。 二 阶 张 量 的 校正 模型 为 MV = 
NYA, ÆI, M 表示 混合 物 量 测 和 矩阵 数据 ，N 表示 待 测 物种 的 标准 量 测 矩 阵 ， 殉 为 特征 向 
EERE., A 为 其 相对 应 的 特征 值 矩 阵 ， 这 在 数学 上 是 一 个 广义 特征 值 问 题 (参见 第 十 一 章 )。 
对 于 这 样 的 校正 模型 ， 可 首先 得 到 待 测 物 种 的 纯 分 析 物 种 的 秩 ， 即 NARN (net analyte 
rank). NAR x —^rank(MD —rank(M | N) , HB rankCM | NO 表示 在 M 中 除去 NN 的 秩 。 注 
意 到 此 二 阶 张 量 校正 模型 的 选择 性 SELN = || NASw ll / ll N || =1， 说 明 此 类 模型 具有 完全 
选择 性 ， 故 可 在 存在 未 知 干扰 的 情况 下 直接 对 待 求 物种 进行 定量 解析 。 所 以 说 ， 随 着 数据 维 
数 的 增加 ， 待 测 物种 的 定量 选择 性 也 随 之 增加 ， 这 被 称 为 维 数 优 势 。 

这 三 类 校正 模型 的 优 缺点 见 表 6-2。 


三 类 校正 模型 的 优 缺 点 




















































































































































































































数据 阶 数 零 阶 张 量 校正 模型 一 阶 张 量 校正 模型 二 阶 张 量 校正 模型 
所 需 选 择 性 完全 选择 性 纯 分 析 信 号 纯 分 析 物 矩阵 的 秩 
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续 表 
数据 阶 数 零 阶 张 量 校正 模型 一 阶 张 量 校正 模型 二 阶 张 量 校正 模型 
最 大 可 分 析 物 种 数 1 分 析 信 和 号 通道 数 分 析 信 号 通道 数 
TA 不 能 检测 能 检测 能 检测 
结果 有 偏差 部 分 情况 结果 有 偏差 分 析 结 果 准 确 
信号 平均 不 能 JI (TI 为 分 析 通 道 数 ) TX J OX JI 为 二 维 分 析 通 道 数 的 乘积 ) 
统计 性 质 简单 ,很 清楚 复杂 ,已 基本 清楚 还 需 继续 研究 





在 分 析 化 学 的 发 展 实际 中 ， 现 今 能 够 得 到 二 阶 张 量 数据 ， 即 矩阵 形式 的 量 测 数据 ， 严格 
说 来 还 只 有 激发 发 射 二 维 荧光 光谱 仪 ， 如 果 说 联 用 色谱 可 产生 有 条 件 约束 的 二 阶 张 量 数据 ， 
也 只 有 HPLC-DAD 和 GC-MS 可 满足 此 条 件 ， 而 在 植物 化 学 和 药物 分 析 、 代 谢 组 学 、 和 蛋白 
组 学 中 大 量 使 用 的 各 种 联 用 色谱 仪器 ， 如 LC-MS, LC-NMR 仪器 ， 原 则 上 都 很 难 满足 二 阶 
张 量 的 双 线 性 条 件 。 所 以 ， 张 量 校正 理论 在 20 世纪 末 提 出 后 ， 尽 管 由 此 产生 了 很 多 的 三 维 
分 辨 与 校正 的 算法 ， 但 在 实际 应 用 中 却步 履 极 难 ， 很 难 实 际 解决 代谢 组 学 、 和 蛋白 组 学 、 植 物 
化 学 和 药物 分 析 中 的 难点 问题 ， 但 在 近 十 多 年 ， 已 取得 较 好 进步 。 


二 、 黑 、 白 、 灰 多 组 分 体系 及 仪器 分 析 策 略 


前 面 一 节 介 绍 的 零 阶 到 二 阶 张 量 校正 理论 是 从 分 析 仪 器 提供 的 数据 维 数 进行 思考 和 讨论 
的 ， 其 视点 主要 集中 在 如 何 看 待 已 有 的 分 析 手 段 。 实 际 上 ， 如 果 将 分 析 化 学 看 作 一 门 化 学 量 
测 科学 ， 而 化 学 量 测 的 全 过 程 本 身 也 就 是 一 个 解决 社会 需求 的 过 程 ， 那 么 ， 考 察 一 下 分 析 化 
学 家 面 对 的 研究 目标 一 一 形形色色 样本 的 重要 特征 ， 可 以 得 到 一 些 有 用 的 思路 。 黑 、 白 、 灰 
多 组 分 体系 的 分 类 正 是 从 这 一 视点 出 发 ， 以 帮助 人 们 根据 不 同样 本 和 所 需 解 决 分 析 问 题 的 不 
同 特性 ， 来 选择 仪器 分 析 的 策略 和 不 同化 学 计量 学 的 解析 方法 而 提出 的 一 个 对 样本 分 类 的 理 
论 思考 。 

如 前 所 述 ， 由 于 生物 学 、 生 命 科 学 、 药 物化 学 、 环 境 科 学 、 食 品 化 学 、 农 业 化 学 等 学 科 
的 迅猛 发 展 ， 对 分 析 化 学 亦 提 出 了 较 高 要 求 ， 即 要 求 对 复杂 混合 物体 系 ， 特 别 是 复杂 有 机 混 
合 物 体系 给 出 快速 定性 定量 分 析 ， 正 是 这 一 要 求 ， 使 得 近年 来 色谱 分 析 得 到 飞速 发 展 。 可 以 
这 样 认 为 ， 纯 品 的 定性 定量 分 析 在 现代 分 析 化 学 已 不 构成 特殊 困难 ， 困 难 就 在 于 混合 物体 系 
的 直接 快速 分 析 。 这 样 形 形 色色 的 多 组 分 体系 是 否 也 存在 某 种 特征 ， 针 对 这 些 特征 分 析 化 学 
家 是 否 有 相应 策略 与 之 对 应 ?在 分 析 化 学 的 实际 分 析 工 作 中 ， 针 对 分 析 化 学 须 对 混合 物体 系 
中 的 各 类 化 学 物质 进行 定性 定量 分 析 的 目的 ， 可 将 在 实际 仪器 分 析 测 量 中 碰 到 的 混合 物体 
系 ， 大 致 地 分 为 以 下 三 种 类 型 ， 即 : 中 对 某 些 混合 体系 ， 其 定性 组 成 均 已 知 ， 分 析 目 的 只 在 
于 对 各 种 物种 (或 物种 的 不 同形 态 ) 或 部 分 物种 进行 定量 分 析 ， 这 样 的 试 样 包括 已 知 药物 片 
剂 分 析 和 某 些 已 知 有 机 反应 的 过 程 的 分 析 样 本 。 因 该 体系 的 定性 组 成 已 完全 清楚 ， 我 们 将 其 
称 之 为 “白色 分 析 体 系 ”， 在 以 后 的 讨论 中 ， 可 以 看 到 ， 除 少数 非 线性 和 所 谓 “ 病 态 体系 ” 
外 ， 只 要 采用 可 产生 矢量 数据 的 分 析 仪 器 ， 分 析 化 学 计量 学 均 可 对 “白色 分 析 体系 ”的 定性 
定量 分 析 给 出 令 人 满意 的 解析 结果 。 人 名 对 于 毫 无 验 前 信息 的 分 析 试 样 ， 即 其 物种 数 、 化 学 物 
种 组 成 及 浓度 范围 缘 不 清楚 ,分 析 工 作 的 任务 首先 是 确定 其 物种 数 ， 进 而 解析 出 各 纯 物 种 的 
谱 图 (可 以 是 光谱 、 波 谱 等 )， 即 先 将 其 转化 为 白色 分 析 体 系 ， 然 后 进行 定量 分 析 。 这 类 分 
析 体 系 是 分 析 化 学 中 较 难 的 一 类 体系 ， 因 其 像 个 黑匣子 ， 故 我 们 称 之 为 “黑色 分 析 体 系 ”。 
在 以 后 的 讨论 中 将 看 到 ， 分析 化 学 计量 学 家 们 已 研究 出 了 不 少 基于 和 矩阵 数据 结构 和 张 量 数据 
结构 的 化 学 计量 学 解析 方法 ， 尤 其 是 对 于 色谱 联 用 仪器 ， 如 GC-MS、GC-IR、HPLC-DAD 
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产生 的 矩阵 数据 ， 已 发 展 了 一 系列 解析 新 方法 ， 可 望 解决 黑色 分 析 体 系 的 快速 定性 定量 分 析 
问题 。 除 以 上 讨论 的 “白色 ”与 “黑色 ”分 析 体 系 外 ， 还 有 一 类 样本 中 ， 其 基本 特征 为 : 
已 知 待 测 物 存在 于 待 分 析 的 样本 中 ,但 是 否 存 在 别 的 未 知 干扰 却 不 清楚 ,分 析 目 的 是 在 存在 
未 知 干扰 的 情况 下 ， 直 接 对 感 兴 趣 的 待 测 物 进行 定量 分 析 。 此 类 分 析 体 系 可 以 说 是 分 析 化 学 
家 碰 到 的 最 多 的 一 类 体系 ， 因 其 定性 组 成 只 部 分 已 知 ， 介 于 “白色 ”与 “黑色 ”分 析 体 系 之 
间 ， 故 将 其 称 之 为 “灰色 ”分 析 体 系 。 对 于 这 类 分 析 体 系 ， 可 以 证 明 ， 只 要 可 通过 仪器 分 析 获 
得 矩阵 类 型 的 数据 ， 一 般 说 来 ， 采 用 分 析 化 学 计量 学 方法 可 望 获得 有 物理 意义 的 唯一 解 [23:29 。 

值得 指出 的 是 ， 上 述 分 类 主要 还 是 从 完成 经 典 的 分 析 化 学 任务 化 学 组 分 的 定性 定量 
分 析 而 提出 的 ， 所 发 展 的 相应 的 分 析 方 法 也 都 是 基于 分 析 仪 器 中 的 组 分 加 合 定律 ， 如 紫外 - 
可 见 光谱 朗 伯 - 比 耳 定律 、 质 谱 加 合 原理 、 红 外 吸收 加 合 定律 等 ， 具 有 严格 的 化 学 物理 意义 ， 
可 以 说 是 基于 所 谓 “ 硬 模型 ”的 分 析 方 法 。 实 际 上 ， 在 近 二 十 几 年 的 化 学 计量 学 的 发 展 中 ， 
另外 一 些 有 关 复 杂 多 组 分 体系 的 分 析 方 法 也 得 到 了 长 足 发 展 ， 可 以 解决 一 些 特 殊 的 复杂 体系 
的 分 析 问 题 ， 而 这 些 分 析 方 法 ， 一 般 不 存在 具有 严格 的 化 学 物理 意义 的 硬 模型 ， 可 以 说 是 一 
类 基于 “ 软 模型 ”的 分 析 方法 。 对 于 此 类 分 析 体 系 ， 由 于 化 学 计量 学 采用 了 多 变量 分 析 的 思 
路 ， 借 助 统计 学 和 计算 机 科学 中 发 展 的 模式 识别 和 机 器 学 习 的 多 种 方法 ， 可 以 解决 此 类 分 析 
系统 的 分 析 问 题 。 实 际 上 ， 化 学 计量 学 的 核心 就 在 于 它 的 多 变量 分 析 ， 采 用 多 变量 模式 分 析 
与 识别 及 多 元 校正 的 分 析 手 段 ， 可 解决 这 些 特殊 的 复杂 体系 的 定性 定量 问题 。 在 此 ， 主 要 讨 
论 以 下 两 种 情况 。 

(1) 样本 的 多 变量 定性 分 析 “这 样 的 例子 就 是 不 同 种 类 的 中 药材 (或 植物 物种 的 化 学 
分 类 与 鉴别 ) 的 分 类 与 真 伪 鉴别 ， 天 然 香 精 香 料 提取 物 的 分 类 与 鉴别 ， 不 同 疾病 患者 的 代谢 
组 学 分 析 、 和 蛋白 组 学 分 析 等 。 对 于 这 些 样本 的 分 析 ， 人 们 不 在 乎 是 否 能 对 其 进行 穷尽 的 化 学 
组 分 定性 定量 分 析 ， 主 要 追求 样本 之 间 整 体 性 〈 包 括 共 同性 与 差异 性 ) 分 析 ， 可 对 不 同样 本 
进行 区 分 ， 进 而 找到 区 分 样本 的 主要 化 学 因素 〈 或 特征 变量 ， 或 生物 化 学 标志 物 )， 化 学 计 
量 学 为 此 提供 了 相应 的 基于 多 变量 的 解析 方法 ， 这 些 方 法 亦 将 是 本 书 主要 讨论 的 复杂 体系 的 
分 析 方 法 。 

(2) 谱 学 的 多 变量 定量 分 析 “这 样 的 例子 最 早 来 自 农 业 化 学 ， 对 于 农业 产品 中 的 不 同 
种 类 的 粮食 或 烟草 中 的 蛋白 质 、 脂 肪 、 糖 类 的 总 量 分析 ， 原 先 大 都 采用 化 学 分 析 方 法 来 完 
成 ， 耗 时 耗 力 ; 另 外， 在 分 析 化 学 的 发 展 中 ， 还 存在 一 种 情况 ， 即 人 们 往往 不 是 对 样本 中 某 
种 化 学 物质 的 定量 分 析 感 兴趣 ， 而 是 关注 该 样本 的 某 一 性 质 和 特质 ， 如 能 源 化 学 中 汽油 的 辛 
烷 值 〈 或 油 品 标号 ) 、 食 品 化 学 中 的 某 种 感官 定量 指标 、 不 同 的 塑料 制品 的 鉴别 等 。 诚 然 ， 
这 些 都 有 一 些 传统 的 方法 进行 测量 ， 亦 大 都 存在 耗 时 耗 力 或 主观 性 太 强 的 弱点 。 值 得 提出 的 
是 ， 一 般 像 这 样 的 化 学 分 析 ， 其 结果 都 是 由 很 多 因素 共同 形成 ， 而 不 是 由 某 单个 化 合 物 决 
定 。 随 着 仪器 分 析 进 入 实验 室 ， 人 们 都 趋向 于 采用 一 些 既 无 损 且 简便 的 方法 来 替代 原 有 分 析 
方法 ， 就 是 由 于 化 学 计量 学 中 主 成 分 回归 (PCR) 和 偏 最 小 二 乘 PLS) 多 变量 解析 方法 的 
引入 ， 使 得 对 这 些 样 本 的 快速 分 析 成 为 可 能 。 人 们 采用 多 变量 的 波谱 分 析 (主要 是 近 红 外 光 
RE. AIER, MEE) 来 蔡 代 原先 的 传统 分 析 方 法 ， 继 采用 PCR. PLS 或 其 他 多 变 
量 解析 方法 (包括 支持 向 量 机 、 人 工 神 经 网 络 ) 来 校正 建 模 ， 以 达到 快速 分 析 的 目的 。 注 意 
到 ， 这 类 样本 的 分 析 并 不 只 局 限于 对 某 种 化 合 物 的 定性 定量 分 析 ， 它 们 是 多 种 化 学 物质 的 综 
合 效 应 ， 故 其 校正 模型 不 确定 (线性 或 非 线 性 未 知 ， 没 有 类 似 朗 伯 - 比 耳 定 律 作为 其 分 析 校 
正 基础 )， 波 谱 中 的 响应 变量 亦 不 能 确定 ， 并 且 它 还 需要 用 原先 传统 化 学 或 物理 方法 所 得 定 
量 数据 来 作为 标杆 建 模 ， 这 类 样本 实质 上 也 是 一 种 复杂 多 组 分 体系 。 在 本 书 中 ， 我 们 将 它们 
称 为 “广义 灰色 体系 ”。 
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第 三 节 白色 分 析 体 系 的 多 元 校正 方法 


如 前 所 述 ， 本 书 第 三 节 至 第 五 节 讨论 的 黑白 灰 复 杂 多 组 分 体系 分 析 方 法 皆 为 硬 模型 分 
析 ， 都 是 基于 朗 伯 - 比 耳 定律 或 其 他 分 析 仪 器 信号 的 加 合 原 理 而 构建 的 。 本 节 所 要 讨论 的 白 
色 分 析 体 系 的 多 元 校正 方法 是 其 中 最 简单 的 ， 其 特征 在 于 构成 此 体系 的 化 合 物 的 定性 组 成 均 
已 知 ， 是 分 析 化 学 中 常见 的 一 种 分 析 体 系 ， 分 析 目 的 是 对 试 样 中 各 种 物种 (或 物种 的 不 同形 
态 ) 或 部 分 物种 进行 定量 分 析 。 这 样 的 试 样 包括 已 知 药物 片 剂 和 茶 些 已 知 有 机 反应 的 过 程 的 
分 析 样 本 。 对 于 分 析 仪 器 产生 的 矢量 数据 ( 即 每 个 样本 相当 于 一 个 矢量 ,一 个 波谱 ), 日 色 
分 析 体 系 的 定量 分 析 ， 除 少数 非 线性 和 所 谓 “ 病 态 体 系 ” 外 ， 分 析 化 学 计量 学 均 可 给 出 令 人 
满意 的 解析 结 

一 般 说 来 ， 对 于 白色 分 析 体 系 ， 我们 只 须 对 混合 样本 及 其 所 含 纯 物 质 样本 进行 相应 的 矢 
量 型 的 光谱 或 波谱 (包括 紫外 -可 见 光谱 、 红 外 或 近 红外 光谱 、 质 谱 、 核 磁 共 振 谱 ， 测量 或 
色谱 测量 ， 根 据 朗 伯 - 比 耳 定 律 或 其 他 分 析 仪 器 信号 的 加 合 原理 ， 都 可 用 下 列 线性 加 合 数学 
模型 表 出 : 




































































y =cC1Xi T €23X5 T "7*1 CnXn | e (6-3) 


XB. y 表示 混合 物 的 量 测 矢量 (或 为 光谱 ,或 为 其 他 谱 ); x;G —1. 2, tn. n) 为 纯 
物质 的 量 测 矢 量 (或 为 纯 光 谱 ， 或 为 其 他 纯 物 质谱 ); e 为 量 测 误差 矢量 ， 一 般 假 设 为 服从 
正 态 分 布 的 等 方差 月 噪声 误差 ; n 为 混合 体系 的 共存 物种 数 ; ci (i 二 1]，2,，…，n) NRA 
待 佑 参数 ,一般 可 看 成 为 相对 浓度 (相对 于 纯 物 质 样本 的 浓度 ， 在 此 所 有 纯 物 质 样本 的 浓度 
都 假设 为 单位 浓度 谱 )。 如 采用 矩阵 表示 ， 式 6-3 可 改写 为 : 








y —Xc-re (6-4) 
这 是 因为 ， 
yi Tı X2 Tin Xi 12 Tin €1 
y - ya É X21 in X22 证 EA F Tn T21 Bd X 2n C9 = Xe 
Ym T m1 T m2 X mn [T ml X m2 US X omn Cn 





AP, m 是 测量 点 数 或 波长 数 ; X — [xis xis cre xs ]e PERROS WREE E e — 
Gs Cas tr 0,0 ， 为 未 知 待 估 参 数 矢 量 ， 或 称 为 待 测 浓度 矢量 。 

对 由 上 面 三 式 表 出 的 多 组 分 白色 分 析 体 系 的 数学 模型 ， 分 析 化 学 计量 学 根据 不 同 的 实验 
条 件 和 不 同 仪器 产生 数据 的 不 同 特性 ， 已 有 不 少 方法 进行 解析 ， 本 章 将 以 直接 校正 法 、 间 接 
校正 法 、 通 用 标准 加 入 法 为 线索 ,分 别 加 以 介绍 和 讨论 。 


一 、 直 接 校正 方法 


直接 校正 方法 根据 采用 的 不 同 数学 方法 ， 可 分 为 多 元 线性 回归 方法 (MLR)，Kalman 
滤波 方法 (KF) 和 加 权 最 小 二 乘 回 归 法 (WLSR)， 下 面 将 分 别 给予 介 绍 。 

(一 ) 多 元 线性 回归 方 ; 

【基本 思路 】 

多 元 线性 回归 方法 为 一 常规 的 统计 解析 方法 ， 适用 于 对 式 (6-4) 中 的 未 知 参数 的 估计。 
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此 法 直观 简单 ， 而 且 具 有 良好 的 统计 特性 ， 故 在 分 析 化 学 计量 学 中 得 到 了 广泛 的 应 用 。 

注意 到 由 式 (6-4) 示 出 的 关系 式 中 均 含 有 一 随机 量 测 误差 e， 为 使 所 估量 测 矢 量 与 实 
际 量 测 矢量 的 误差 最 小 ， 一 般 采 用 最 小 二 乘法 ， 即 构建 一 个 目标 函数 f(c) ， 使 得 f(c) = 
(y 一 y)'(y 一 y) e'e 趋 于 最 小 ， 即 




















fG) —Q —y*G-—y-G-—XoO'(—Xo0-e6e— Me 


上 式 中 只 有 c 为 未 知 量 ， 故 可 对 其 求 导 而 获得 f C 的 最 小 值 。 
因为 





f GO =y — Xc) Cy — Xe) —y!y — y'OXe) — OXe)'! y + (Xc) (Xc) 





= yty —y'Xe —c'!Xy -ce'X'Xc 





= yty — 2y'!Xc --c'X'Xc (6-5) 








在 上 式 的 推导 中 ， 因 y'Xe 为 一 标量 ， 故 有 y' Xe 二 ctXy， 对 上 式 求 导 可 得 (参见 第 十 

一 章 的 “矢量 求 导 ”) 
df (c)/dc — —2X'y 4- 2X'Xc (6-6) 
令 上 式 等 于 零 ， 即 可 得 
X'Xc —X!y 
亦 即 
c — (X'X)7X!y 

上 和 式 所 求解 一 般 称 为 最 小 二 乘 解 。 只 要 由 式 (6-4) 确定 的 数学 模型 中 的 假设 成 立 ， 即 
量 测 误差 的 确 服从 高 斯 正 态 分 布 且 具 有 零 均 等 方差 的 噪声 ， 则 上 式 给 出 的 解 具 有 很 多 良好 的 
统计 性 质 。 在 此 假设 (XX) 是 满 秩 的 ， 其 前 提 就 是 要 求 和 矩阵 汪 包含 的 每 一 列 ， 即 x; G— 
1，2，…，7) 所 表征 的 纯 物 质 的 量 测 矢量 (或 为 纯 光 谱 ,， 或 为 其 他 纯 物 质谱 ) 线性 无 关 。 
一 般 说 来 ， 只 要 此 混合 体系 中 不 存在 化 学 反应 ， 该 条 件 容 易 满 足 。 但 是 ， 对 于 某 些 量 测 光 
谱 ， 尤 其 是 紫外 -可 见 光 谱 ， 由 于 其 主要 反映 分 子 共 斩 体 系 的 信息 ， 有 些 化 合 物 的 光谱 是 十 
分 相近 的 ， 由 于 光谱 相似 度 过 高 ， 可 造成 矩阵 X 接近 亏 秩 而 使 上 述 最 小 二 乘法 不 稳定 ， 成 
为 病态 体系 。 有 关 病 态 体系 的 分 析 ， 本 章 将 进行 专门 讨论 。 

值得 指出 的 是 ， 因 X 和 y 均 为 已 知 量 ， 所 以 如 果 采 用 Matlab 编程 ， 只 需 一 个 语句 即 可 


算得 结果 ， 即 





















































c —inv(CX'X) * X/* y 


所 以 ， 在 此 对 多 元 线性 回归 不 给 出 基本 算法 了 。 

【基本 性 质 】 

多 元 线性 回归 给 出 的 解 具 有 很 多 良好 的 统计 特性 ， 对 此 将 给 出 较为 详细 的 讨论 (这 对 理 
解 该 法 的 实用 性 和 合理 地 评价 所 得 分 析 结 果 的 可 靠 性 很 有 帮助 )。 

OD 最 小 二 乘 估计 c 是 未 知 浓度 矢量 e 的 无 偏 估计 。 

ide 的 数学 期 望 ( 可 近似 看 成 平均 值 ) 为 
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cil] TEG) 
EG) 一 忆 | |= 
ca] |EG,) 
于 是 有 








E(c) -E[(X'X)! X!'y ] 2 CX'X) ! X!'ECy) — (OX! X) ! X' E(Xc +e) 
—(X'X)^1X'Xc J- ECe) 
在 直接 校正 模型 中 有 关 量 测 误差 服从 高 斯 正 态 分 布 且 具有 零 均 等 方差 的 噪声 ， 即 











Fle)=0 
和 
CovCe) —c?I 
于 是 
E(c)=(X'X) I X' Xe 一 c (6-7) 


此 式 结 果 就 说 明 最 小 二 乘 估 计 c 是 未 知 浓度 矢量 e 的 无 偏 估计 ， 从 统计 意义 上 说 明了 该 法 结 
果 的 准确 性 。 
(2) 最 小 二 乘 估 计 e 的 方差 阵 为 
Cov(c ) =0? CX! X)! 


FA Ey) =E(Xt 十 e) 一 已 (Xec) 十 已 Ce) 一 Xe 
这 是 因为 X 可 以 视 为 常数 和 矩阵， 即 





E(Xc) Ele) — XECO 4-0 — Xc 


随机 变量 
CovCy) =E{[y—E(y)][y— ECy)]!) 
一 下 [(y 一 Xec)(y 一 Xc)t] 
=E (eet) —c?I 
所 以 


C 一 c 一 (XIX)-IXty 一 ec 一 (XIX)-IXICXc +e)—c =(X'X) X'e 
Cov(c) — Cov[ CX'!X) 7! X! y ] 2 CX! X)! X! CovC) X (X! X) 1 


=(X' X) Xto? IX (X' X) ! —o?(X'X)^! 





(3) "EX s? =G — y) G —y)/m—n) , M s?29 c? Et. ÆRE, m 是 测量 
点 数 或 波长 数 ，n 是 混合 体系 的 组 分 数 ，s? 可 称 为 残余 方差 。 
在 给 出 证 明之 前 ， 先 介绍 一 条 引 理 。 
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9|38: 设 g 为 n IRE. Elg) — f. Cov(g) =V, XA 为 一 n 阶 常数 方 阵 ， 则 
ECg'Ag) — f'Af +tr(AV) 
特别 地 ， 当 Cov(g) o? Loo > A 
E(g'Ag) — f'Af —- o? tr(A) 
证 明 : 利用 公式 tr(C4B ) — t GAO ， 并 令 
g=f +e 
Hop. f 为 随机 矢量 g 的 均值 ， 为 常量 矢量 ，e。 为 一 均值 为 零 的 随机 矢量 ， 则 有 下 (Ceuey ) = 
Cov(eo) =V ， 所 以 








E(g'Ag)=E[(f - e,D'ACf +e,)] 
=f 'Af +2f'AE le) + ECeSAeo) 


— f' Af - E[tr(e5Aeo) ] — f'Af + EL trCAeoes) ] 








— f'Af + tr[AE Ce,e))] =f Af + trCAVO 


证 毕 。 


在 上 述 推导 过 程 中 ， 用 到 了 求 迹 运算 与 求 数学 期 望 〈 或 称 求 均 值 ) 运算 可 交换 的 原理 。 
利用 以 上 引 理 ， 不 难 证 明 s? 为 o? 的 无 偏 估计 。 
因为 











E[s? ] - E[Cy — y) w — 2/Gn —2)2] 
=1/(m —n)E[ (y — Xe)(y — Xe?] 
=1/(m —53) E[ Cy — XCOX'X) ! X! y)'(y — XCOX'X) ! X! y)] 
—]1/GO — 1) ELy! A mxm — XOCX) 2 XO! A mxm — X (XX) Xy] 
REP OL — XOCX) 1 X0! Oo - XO X0! XO 就 相当 于 一 个 常数 矩阵 ， 而 
E(y)=E(Xc)=XE(c)=Xc 
另外, so —XOX) 1X0 为 一 对 称 震 等 矩阵 ， 故 有 
(Tuxm — XCOX!X) !? XO! Ox, —XOX'X) ! XO 
=I nxm — (X (X' XI XD + OCOCOO XOY AX AXN | X)! 
=I nxm — (X (X'X) IX') 
利用 前 述 引 理 ， 可 得 
(Xe! mxm ~X (XX) 21 X: (Xe) 
—eXtQ — XOCX)7XXc 


—cCOX'X —X'XOX' X)! X! X2c 
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—ceOX' X 一 XIXD)C 
=c¢'(0)c —0 

tr(Lux, — XOX'X) ! X) 
=tr(I mxm) — trCXCOX' X)! X?) 
=tr(I mxm) — trCOX' X) ! X' X) 


= tr mxm ) d tr(T,wxn ) —mm AR 


E(5?] —1/Gn —n) X (0+ Cn — 126?) =o? 


(4) 只 要 有 关 量 测 误差 服从 高 斯 正 态 分 布 且 具有 零 均 等 方差 的 噪声 的 假设 成 立 ， 最 小 
二 乘 估 计 为 相合 估计 ， 即 














2 
limCov(£) —lims? (XX) 1 =lim ^ [(X*X/m)] 
m 
— limo? /m(F) 一 0 


这 是 因为 上 式 中 正德 阵 为 一 平均 协 方差 阵 ， 可 近似 认为 是 常数 矩阵。 这 一 关系 说 明 ， 
只 有 有 关 假 设 成 立 ， 量 测 点 越 多 ,估计 浓度 的 方差 越 小 。 

(5) 只 要 有 关 量 测 误差 服从 高 斯 正 态 分 布 且 具有 零 均等 方差 噪声 的 假设 成 立 ， 则 在 全 部 
线性 无 偏 估计 类 中 ， 最 小 二 乘 估计 是 唯一 的 方差 一 臻 最 小 估计 (Gauss-Markov 定律 )。 
Gauss-Markov 定律 的 证 明 须 用 到 一 些 不 常用 的 统计 学 定理 ， 在 此 从 略 。 

从 以 上 讨论 可 以 看 出 ， 最 小 二 乘 估计 的 确 具 有 很 好 的 统计 学 特性 。 故 此 方法 虽 很 古老 ， 
还 仍 在 分 析 化 学 计量 学 中 得 到 广泛 的 应 用 i%”~??] 。 因 其 是 直接 用 纯 物 质谱 来 进行 混合 体系 的 
浓度 校正 ， 故 有 直接 校正 之 称 。 

在 分 析 化 学 计量 学 的 多 元 校正 方法 中 ， 最 优 量 测 点 (在 紫外 -可 见 光 谱 分 析 中 为 波长 ) 
的 选择 一 直 是 一 个 研究 课题 。 在 分 析 化 学 中 ， 为 测定 多 组 分 ， 亦 常用 多 波长 方法 。 原 则 上 
说 ， 在 线性 代数 中 ， 几 个 未 知 数 的 求解 只 需要 几 个 线性 方程 就 够 了 ， 而 在 本 节 介 绍 的 最 小 二 
乘 估计 法 ， 其 线性 方程 的 数目 On) 是 远 远 大 于 未 知 组 分 浓度 的 数目 (O0 的 。 现 在 根据 上 
述 讨论 的 最 小 二 乘 估计 的 性 质 ， 不 妨 对 此 问题 进行 分 析 。 

在 最 优 量 测 点 的 选择 标准 中 ， 最 著名 的 有 以 下 三 种 : 四 估计 值 的 均 方差 标准 [3329] ， 
MSE 二 o ?tr(X'X) ! ; OMRE E EITI RERE, S —det(X'X) ; @ 敏 感度 矩阵 条 件 
数 标准 5624 , Cond(X) — Cond(X' X) , fEllE Cond CO 表示 条 件数 。 这 三 个 标准 有 一 定 内 在 联 
系 ， 只 须 进行 简单 代数 运算 即 可 得 











































































































MSE =0?°tr(X'X) ! —o?tr(Q'QX'X) ! —o?tr(Q'X'XQ) ! —o? M x 


i-l 
XB. Q HEZE; 4; 为 AXX) 经 正 交 变换 所 得 对 角 和 矩阵 的 第 i 个 对 角 元 素 ， 常 
称 为 特征 值 (参阅 第 十 一 章 )，。 
S=det(X'X)=det(Q'Q)det(X'X)=det(Q')det(Q)det(X'X) 








=det(Q') det(X'X)det(Q0) =det(Q'X'XQ) = | |à; 
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max(A;) 


Cond(X)=Cond(X'X)= 





min(A;) 





上 式 是 条 件数 的 定义 ， 其 中 4; (i 二 1，2，…, n) 的 意义 同 前 。 
从 以 上 三 式 可 以 看 出 ， 三 个 数值 标准 都 可 用 敏感 度 矩 阵 X. 的 协 方差 阵 的 特征 值 表 出 
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说 明 它 们 的 确 具 有 某 些 共同 特性 。 值 得 提出 的 是 ， 这 三 个 标准 都 对 最 小 的 特征 值 很 敏感 ， 说 
明了 它们 与 敏感 度 和 矩阵 X 的 共 线 性 有 关 。 图 6-11 给 出 了 这 三 个 标准 用 于 两 个 实际 分 析 体 系 
的 数值 变化 与 量 测 点 数 的 关系 ， 可 以 看 出 ， 估 计 值 均 方差 标准 和 敏感 度 和 矩阵 行列 式 标 准 的 数 
值 都 随 着 量 测 点 数 的 增加 而 减少 ， 具 有 相近 的 特性 。 这 与 前 面 讨论 的 最 小 二 乘 估 计 的 性 质 





























(4) 是 吻合 的 。 敏 感度 矩阵 条 件数 标准 却 不 具备 这 一 统计 学 特性 中 。 从 这 些 结 果 可 以 看 出 














, 


只 要 有 关 量 测 误差 确 为 高 斯 正 态 分 布 且 具有 和 零 均 等 方差 ， 则 量 测 点 越 多 ， 估 计 浓 度 的 方差 越 











小 。 也 就 是 说 ， 在 一 般 情况 下 ， 只 要 不 引进 非 线 性 量 测 点 ， 应 该 是 量 测 点 越 多 越 好 。 而 且 
从 图 6-11 也 可 以 看 出 ， 对 于 二 组 分 和 三 组 分 分 析 体 系 ， 当 只 取 两 个 或 三 个 量 测 点 来 校正 时 
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估计 值 均 方差 标准 和 敏感 度 矩 阵 行列 式 标 准 的 数值 都 较 大 ， 即 估计 值 均 方差 较 大 ， 直 到 量 测 





点 数目 大 于 10， 变 化 才 趋 于 平稳 ， 这 说 明 最 好 能 多 取 些 量 测 点 来 进行 校正 。 从 这 一 角度 看 


, 


经 典 分 析 化 学 中 用 多 波长 方法 测定 多 组 分 很 难保 证 估计 浓度 的 方差 最 小 ， 随 着 计算 技术 的 发 
展 ， 应 该 用 多 元 校正 取代 之 。 图 6-12 示 出 的 三 个 分 析 体 系 的 分 析 结 果 与 波长 数 的 关系 也 确 











实 支 持 这 一 结论 。 
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波长 点 数 (m) 与 三 个 标准 的 关系 
波长 点 数 按 最 优 方法 选 出 : GO 苯酚 与 间 茶 二 酚 二 组 分 体系 ; (bo 对 甲 酚 、 邻 甲 酚 、 间 甲 酚 三 组 分 体系 
1—-—log[det(X'X)]; 2—1tr(X'X) !; 3—cond(X' X) 























E. 本 节 讨 论 的 波长 点 选择 是 基于 硬 模型 分 析 而 得 出 的 ， 与 本 章 第 七 节 中 近 红 外 光谱 定 








量 分 析 讨 论 的 波长 选择 是 具有 不 同 含义 的 。 














根据 Gauss-Markov 定律 ， 在 全 部 线性 无 偏 估计 类 中 ， 最 小 二 乘 估 计 是 唯一 的 方差 一 致 
最 小 估计 [ 见 特性 (5) ]， 通 常 也 把 这 个 定理 作为 最 小 二 乘 估计 优越 性 的 一 个 重要 论据 。 但 














是 在 此 值得 提出 的 是 ， 在 承认 这 一 点 的 同时 也 应 当 注 意 到 : 中 此 定理 是 在 量 测 误差 服从 高 





斯 



































正 态 分 布 且 具有 和 零 均 等 方差 的 假设 的 前 提 下 才 成 立 ， 而 在 一 个 具体 场合 下 ， 此 假设 是 否 合 
是 可 以 讨论 的 ， 并非 自然 成 立 。 己 此 定理 中 “方差 最 小 ”的 结论 ， 是 在 “无 偏 ” 的 限制 下 得 
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波长 点 数 (m) 与 均 方 相对 误差 标准 的 关系 
波长 点 序列 按 最 优 方法 选 出 : A 一 二 组 分 体系 ; B 一 三 组 分 体系 ; C 一 四 组 分 体系 

到 的 。 如 果 不 局 限于 无 偏 估 计 ， 可 否 找到 男 一 些 估计， 在 某 种 意义 上 优 于 最 小 二 乘 佑 计 ? 这 
也 是 可 以 讨论 的 问题 。 事 实 上 ， 在 以 后 的 讨论 中 ， 可 以 看 到 ， 对 于 所 谓 的 “病态 ”分 析 体 
系 ， 有 偏 估 计 就 具有 某 些 优越 性 。 

CC Kalman 滤波 法 

Kalman 滤波 为 信号 处 理 中 一 种 最 优 线性 递 推 滤波 方法 ， 因 其 是 一 种 递 推 算法 ， 具 有 计 
算 速 度 快 且 所 需 计 算 机 内 存 少 的 特点 ， 故 在 工程 实践 中 ， 特 别 在 航空 空间 技术 中 得 到 广泛 应 
JH. Kalman 滤波 首先 由 Rutan 等 引入 化 学 计量 学 533.39 ， 很 快 在 分 析 化 学 计量 学 的 多 元 校 
正中 得 到 应 用 。 递 推 运算 是 Kalman 滤波 方法 的 一 个 重要 特点 ， 在 讨论 Kalman 滤波 方法 
前 ， 有 必要 对 递归 运算 给 出 简要 介绍 。 

递归 运算 的 基本 思想 是 有 效 地 利用 已 经 得 到 的 结果 和 最 新 的 观察 值 来 进行 计算 ， 以 避免 
不 必要 的 重复 。 这 种 递归 运算 的 特征 ， 可 以 均值 的 计算 为 例 来 很 好 地 加 以 说 明 。 均 值 运算 一 
般 采 用 下 式 
























































在 测 得 一 个 新 的 zi 一 2 十 1) 后 ， 如 用 上 式 计算 就 必须 一 切 从头 算 起 ， 原 始 的 2 个 观察 值 都 
必须 存储 在 计算 机 中 ， 试 用 递归 方式 运算 ， 则 可 得 到 下 列 算式 ， 它 只 与 前 一 次 的 结果 有 关 ， 
而 无 须 再 一 次 计算 原始 的 2 个 观察 值 











dac ied TG, 一 )/n (6-8) 


这 种 方式 显然 比 非 递 归 方法 快 且 所 需 内存 少 ， 特 别 适应 实时 运算 ， 这 正 是 Kalman 滤波 
方法 相对 于 上 述 非 递归 多 元 线性 回归 方法 的 一 个 重要 优点 。 

【基本 思路 】 

Kalman 滤波 算法 在 化 学 中 可 用 于 很 多 方面 ， 如 化 学 动力 学 的 速度 常数 的 测定 I]， 非 
平衡 状态 的 电位 滴定 [836 ， 多 组 分 化 学 体系 的 直接 校正 等 。 在 Kalman 滤波 算法 中 ， 首 先 定 
义 了 两 个 模型 ， 一 个 是 系统 模型 ， 另 一 个 是 量 测 模型 。 因 本 文 只 讨论 在 直接 校正 中 应 用 的 
Kalman 滤波 算法 ， 即 将 其 看 成 一 种 递归 型 的 线性 状态 估计 方法 ， 用 来 估计 体系 组 分 浓度 ， 
故 在 此 只 给 出 其 简要 形式 ， 并 力争 与 前 文 讨 论 的 多 元 线性 回归 方法 使 用 的 符号 一 致 。 
Kalman 滤波 算法 的 系统 模型 和 量 测 模型 分 别 由 式 〈6-9) 和 式 (6-10) 给 出 
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c(k)=F(k, kb — DeC — D d wCGO (6-9) 
z(k)=x(k)te(k —1)+e(k) (6-10) 








式 中 ， 变 量 & 代表 一 个 量 测 点 ， 它 可 以 是 时 间 、 分 析 通 道 如 波长 等 或 其 他 变量 ; e (e) 代 
表 系 统 在 量 测 点 & 的 状态 ， 在 此 为 分 析 体 系 的 浓度 矢量 ; FOR. E — D 称 为 系统 的 转移 矩阵 ， 
它 表 达 了 系统 如 何 由 & 一 1 点 的 状态 过 渡 到 & 点 的 状态 ， 因 静态 分 析 体 系 的 浓度 矢量 在 整个 
分 析 过 程 中 不 发 生变 化 ， 故 在 此 它 实际 为 一 单位 矩阵 ; wa) 代表 系统 的 动态 随机 误差 ， 
本 书 只 讨论 静态 分 析 体 系 的 多 组 分 校正 ， 故 其 也 可 认为 近似 等 于 一 零 矢 量 ; x(R) 代表 量 测 
函数 矢量 ， 它 与 前 文 讨论 的 多 元 线性 回归 中 的 敏感 度 和 矩阵 X 的 第 &A 行 相对 应 ; z UO 为 混合 
体系 在 & 点 的 量 测 值 ， 与 上 节 讨 论 的 多 元 线性 回归 中 的 混合 物 量 测 矢量 中 的 第 & 点 相对 应 ; 
elk) 为 混合 体系 在 点 的 量 测 误差 ， 与 前 文 讨论 的 多 元 线性 回归 模型 的 假设 相同 ， 为 一 服 
从 高 斯 正 态 分 布 且 具 有 和 零 均 等 方差 的 空白 噪声 系列 。 

Kalman 滤波 方法 用 于 多 元 校正 是 采用 递归 运算 进行 的 ， 即 利用 系列 点 的 量 测 值 进行 体 
系 浓度 估计 ， 直 至 得 到 稳定 的 、 最 优 的 浓度 估计 值 。 它 的 核心 递 推 估计 方程 如 下 


c(k)=c(k—1)+gk)lz(k)—x(k)'te(k—1)] (6-11) 


式 中 , c(R) RRA e 个 量 测 点 估计 出 的 浓度 矢量 ， 而 c(k 一 1) 则 表示 由 (4 一 1) 个 量 
测 点 估计 出 的 浓度 矢量 ; 可 以 看 出 , [z(k) — x GO'cCkE 一 1)] 实际 就 表示 在 & 点 混合 体系 的 
量 测 值 与 估计 值 之 差 ， 只 不 过 此 估计 值 由 c( 一 1) 算出 ， 即 是 只 基于 (4 一 1) 个 量 测 点 而 
估计 出 的 ; 式 (6-11) 中 最 重要 的 是 g(k) ， 它 称 为 Kalman 滤波 中 的 增益 矢量 ， 如 果 把 此 
式 与 式 (6-8) 比较 ， 可 以 看 出 此 增益 矢量 与 式 (6-8) 中 的 1/n 是 相对 应 的 。 从 式 6-11) 
还 可 以 看 到 ，Kalman 滤波 在 第 点 对 c(CR) 做 出 的 估计 ， 是 建立 在 第 (gk 一 1) 点 以 前 的 量 
测 所 得 浓度 矢量 c(k 一 1) 估计 的 基础 上 ， 再 考虑 新 的 第 & 点 的 量 测 值 与 按 原 估计 的 浓度 矢量 
clk 一 1) 计算 应 有 的 响应 值 的 差异 乘 上 增益 矢量 而 得 。Kalman 滤波 增益 矢量 的 计算 由 下 式 
给 出 























































































































gk) —P(k — Dx GO[x &)!'PCkR — Dx GO 9 r(G)]! (6-12) 











AP, rk) 是 量 测 噪声 ek) 的 方差 ， 是 标量 。P(R 一 1) 是 从 前 (4 一 1) 个 量 测 点 估计 
所 得 的 系统 协 方差 矩阵 ， 其 自身 在 第 & 点 的 估计 可 由 下 式 给 出 


PG) —[I —gCG — Dx GJ)! JPG: — D[I — gk —1)x(k)']t+Hg(k—1)r(k)g(k—1)' 
(6-13) 














式 中 , I 为 单位 矩阵 。 

【基本 算法 了 】 

从 以 上 对 Kalman 滤波 算法 的 介绍 可 以 看 出 ， 只 要 给 出 cCR) APR) 的 初始 值 ， 即 
c(0) 和 PC(0) ， 就 可 按 式 (6-120 计算 其 增益 矢量 ， 然 后 按 式 (6-11) MA (6-130 计算 下 
一 个 cl(k) MPR), EZKE HLA, Kalman 滤波 具体 算法 可 由 下 列 步 又 组 成 。 

(D 置 初 值 
































c0) =0, PO) —c?I 


一 般 可 取 e(0) =0, PO) —6?1 。 这 里 工 为 单位 矩阵 ，c2 为 初始 估计 的 量 测 方差 ， 此 值 
可 按 下 述 经 验 式 估 出 
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o? =a{r(1)/[x (Dx 1)]}Y? 





式 中 ,4a 为 一 与 计算 机 精度 相关 的 因子 ,一 般 可 取 10 一 100。 值 得 提出 的 是 , PO) 取 值 
太 小 ， 可 导致 有 偏 估计 ， 如 取 值 太 大 ， 尽 管 参 量 的 估计 值 是 无 偏 的 ， 但 由 于 量 测 点 数 不 够 
K, PO 的 最 终 估计 值 仍 会 偏 大 。 

(2) 启动 计算 

gk) -—PG — Dx GO[x G)!P(Gk — DxGO - r(R2]7 
c(G) —c(k — D gOGO[z GO) — x ()'e(k — 1] 
PG) —[I — g(& — Dx CE)! JPCR — D[I — gC& — Dx GO] - g(& — DrG0g(£ —D* 

式 中 , r) 是 量 测 噪声 ek) 的 方差 ,可 根据 实际 量 测 噪声 方差 具体 确定 。 重 复 此 步 计 
算 直 至 浓度 估计 值 趋 于 稳定 。 































































































【重要 性 质 】 
在 Kalman 滤波 算法 中 ， 新 息 系列 是 一 个 很 重要 的 概念 ， 它 可 提供 关于 滤波 结果 是 否 可 




















靠 的 信息 。 新 息 系列 可 由 下 式 表 示 出 
vlk) —z(R) — xCED'c(k — D 
可 以 看 出 ， 新 息 系 列 实 际 就 表示 在 & 点 的 量 测 值 与 估计 值 之 差 ， 相 当 于 多 元 线性 回归 中 
k 点 的 残 差 。 如 果 滤 波 进行 正常 ， 新 息 系列 应 为 一 零 均 白 噪 声 系 列 ， 如 果 滤 波 不 正常 ， 新 息 
系列 将 成 为 相关 的 (参见 图 6-13)， 这 说 明 或 是 体系 存在 背景 ,或 是 体系 存在 未 知 干扰 物 ， 
Kalman 滤波 的 结果 不 可 靠 [57] 。 
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(b) 


滤波 新 息 系列 (NAC) 
(a) 正常 滤波 ; (bo 存在 干扰 物质 


有 关 式 6-8) 的 推导 
因为 


Xn ST nl s (m n Tn- )/n 
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— n—l1 (n—1) (n—l)n 





Tj Tn Tn 


nl (n—1) (2 一 1) 








亦 即 


= Ti Tn 
Tn 


Zinn] G-—D 








(n Dz, = >z; Ia Bp Ea xe X 


(三 ) 加 权 最 小 二 乘 回归 法 

在 前 两 节 的 讨论 中 ， 一 般 都 假设 量 测 误差 是 服从 零 均 等 方差 的 正 态 分 布 ， 然 而 ， 在 分 析 
化 学 的 量 测 中 ， 有 时 这 一 假设 并 不 可 能 满足 。 在 这 一 节 中 ， 将 讨论 当量 测 误差 为 不 等 性 方差 
时 ， 多 元 校正 采用 什么 方法 来 进行 浓度 估计 的 。 加 权 最 小 二 乘 回 归 法 就 是 这 样 一 种 方法 。 

【基本 思路 】 

TEX f(c) — >)e? 中 ， 每 个 误差 值 e?G —1, 2, s. m) 的 系数 都 是 1， 即 在 最 小 二 乘 
法 的 目标 函数 中 每 个 误差 值 都 是 “等 权 ” 的 。 然 而 ， 这 就 暗示 此 法 只 有 在 各 量 测 误差 都 相同 
的 情况 下 才 是 合理 的 。 事实 上 ， 在 分 析 化 学 的 量 测 中 ， 量 测 值 在 不 同 的 量 测 范围 内 ， 量 测 精 
度 往往 不 同 ， 因 而 量 测 误差 也 不 尽 相 同 。 这 种 情况 在 光谱 分 析 中 很 常见 。 合 理 的 方法 是 对 不 
同 的 误差 项 e? 加 不 同 的 权 ， 即 把 式 /(c) = 》)e? 改写 成 


féco— Xwe? 
i=l 


当量 测 值 的 精度 高 时 ，zm; K, RZ, w, 小 。 这 样 可 以 使 拟 合 的 曲线 非常 接近 于 精度 高 
的 点 ， 保 证 拟 合 的 准确 度 高 。 
如 果 用 和 矩阵 的 表示 方法 , f (ec) 可 以 写成 
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fG) = X we? 2e'We —(y — WY — y) =y — Xe) Wo — Xe) 
i-l 








在 这 里 ，W 为 一 m X m XL fü XB Eg. EOM fS 2628 LAE w; (i —1. 2. 7. m), BAMI 
和 矩阵。 


上 式 中 ， 只 有 cc 为 未 知 量 ， 当 将 w; (i 二 1]，2,，…，m) 看 成 常数 时 , f(c) HRE e 的 二 
次 型 ， 故 可 对 其 直接 求 导 而 获得 f Coo 的 最 小 值 ， 即 


fl(c)=(y— Xc)'W(ly— Xc) 
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—yWy — y'W (Xc) — CXce?'Wy + CXeO'WCXeO 


= y'Wy — 2y'WXc + c! X'WXc 


df (e) /de — —2X'Wy + 2X'WXc 


X'WXc = X'Wy 


c =(X'WX) 1 X'Wy 








这 就 是 加 权 最 小 


二 乘 的 计算 公式 。 在 上 述 推导 中 ， 完 全 没有 考虑 到 随机 变量 的 统计 特 








性 。 为 比较 加 权 最 小 


和 


在 此 没有 要 求 量 测 误差 Ce) 服从 正 态 分 布 ， 而 且 量 测 误差 的 协 方差 阵 也 不 是 一 个 常数 对 角 


二 乘 估计 与 多 元 线性 回归 之 间 的 关系 ， 可 假定 
E(e)—0 





Cov(Ce) =E (eet) =V 











阵 ， 即 不 相关 且 具 等 方差 的 量 测 误差 。 


【基本 性 质 】 


ARW 的 选择 问题 在 后 面 讨论 。 现 先 讨 论 W 为 一 般 矩 阵 时 的 加 权 最 小 二 乘 估计 的 一 些 


基本 性 质 。 
(1) 加 权 最 小 





二 乘 估计 是 未 知 浓度 矢量 e 的 无 偏 估计 


EC) —-— E[CX'WX) ? X!NWy ] 2 OX'WXO ^?! X'WECy) 


= (X'WX) !X'WECXc +e) 


=(X'WX) !X'WXc +E (e) 


因 仍 有 量 测 误差 具有 和 零 均 的 性 质 ， 即 ECe) = 二 0， 所 以 有 


(2) 加 权 最 小 


因为 


E(c)=(X'WX) XWXc 一 c 


二 乘 估 计 e 的 方差 阵 


Cov(c) =0? CX'WX)^! 


c—c—OXWX)!X'Wy —c 
—(X'WX)07!X'WCOXc 十 e) —c 


=(X'WX) 1X'We 





Cov(e) —E[(e —e)(e —c)'] 


— Cov[ CX'WX) ^! X'We] 
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= (X'WX) 7! X'WCovCeOWX OX'WX)^! 


= (XWX) !X'WVWX (OX'Wx» ^! 


ARE W-—v-!,. W ERTEK 





下 面 











Cov(c) —CX'V^ X)! X'VVV^! XCX'V^ X) 
—(X'VX)XVXOX'Vx) 
—(X'V31xXx)1 


RWE, "B Ww—v 1， 可 使 估计 误差 的 方差 为 最 小 ， 因 而 





和 矩阵。 利用 许 瓦 获 不 等 式 


4 V—CC. Sip V 为 一 对 称 和 矩阵 ; 


又 有 


所 以 


这 就 说 明了 采用 加 权 最 小 


A'A > (A'B)(B'B) ! (B'A) 





A'A =(X'WX) ! X'WC'CWX (X'WX) }! 


=(X'WX) ' X'WVWX (X'WX) ! 


(A'B)(B'B) ! (B'AD 


—OX'WX»5- 


=(X'WX) 'X'WX [X' (C) )'C?X]'!X'WXIOX WX)! 


—(X'WXo!X'WX [XV XI X'WXCOX'WX)^ 


= [X'V! X]! 





—1 


W-—Vv :是 最 优 的 加 权 


H4 A —CWXOX'WX) .B-—(CO0^X ， 则 


X' WCuCOCEX XQ !6x x Ti FOWXCX WX)? 


(XWX) ! X'WVWX (XWX) ! 2 [X'v^?x]! 


有 时 特别 把 加 权 阵 W 取 为 Y :的 加 权 最 小 二 乘 估 计 ， 即 


c—(OX'VX)1X'V1y 


二 乘 时 ， 加 权 阵 W 取 为 VY 1 所 得 的 估计 误差 的 方差 阵 为 最 小 ， 


称 为 马尔 柯 夫 估计 。 故 一 般 在 实际 运算 中 就 选择 V 1! 作为 加 权 和 矩阵 W。 
二 、 间 接 校 正方 法 


从 上 述 讨论 可 以 看 到 ， 直 接 校 正方 法 直观 且 计 算 简单 ， 易 于 在 计算 机 上 实现 。 但 是 ， 这 
种 方法 不 太 利于 实验 设计 ， 而 且 对 某 些 存在 轻微 非 线 性 的 分 析 体 系 ， 其 浓度 估计 的 可 靠 性 会 
分 析 试 样 人 们 一 般 可 得 到 它们 的 大 致 浓度 变化 区 间 ， 如 此 时 直接 用 一 些 





有 所 下 降 。 


已 知 浓度 的 混合 


因 对 很 多 























校正 训练 集 的 话 ， 所 得 估计 效果 当 有 所 提高 。 这 就 产生 了 要 在 这 节 讨 Y 


间接 校正 方法 。 





间接 校正 方法 的 基本 思路 是 用 一 些 已 知 浓度 的 混合 物 经 某 种 实 台 











物 试 样 ， 有 如 正 交 设计 或 因子 设计 ， 来 构成 某 种 


耸 的 多 元 校正 中 的 所 请 


给 设计 方法 首先 构成 一 术 
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正和 矩阵 Y， 然 后 ， 利 用 该 校正 矩阵 来 找到 这 些 混合 物 量 测 谱 所 对 应 的 各 组 分 纯 物种 的 量 测 谱 
(K- 和 矩阵 法 )， 或 是 利用 它 找到 混合 物 量 测 谱 与 各 混合 物 浓度 的 一 种 线性 关系 P-E), 
这 样 一 类 方法 因 其 不 直接 采用 纯 物 种 的 标准 量 测 谱 来 进行 校正 ， 故 统称 为 间接 校正 方法 。 因 
间接 校正 方法 是 用 混合 物 量 测 谱 来 直接 估计 或 校正 未 知 混合 物 量 测 谱 的 各 组 分 浓度 ， 所 以 有 
一 定 减 轻 非 线性 因素 的 功效 。 但 是 ， 因 间接 校正 方法 仍 是 采用 线性 模型 ， 对 于 非 线性 严重 的 
分 析 体 系 仍 不 可 能 得 到 令 人 满意 的 结果 。 对 于 间接 校正 方法 ， 其 一 般 数 学 模型 可 由 下 面 两 式 
给 出 : 







































































Y=KC (K- 矩阵 法 ) 
C 一 PY CP- 矩阵 法 ) 


NP, EYK mXp) 阶 的 校正 矩阵 ， 它 由 个 混合 物 量 测 谱 分 别 在 m 个 分 析 通 道 
(可 为 波长 或 别 的 分 析 通 道 ) 量 测 而 得 ， 它 的 每 一 列 就 代表 一 个 混合 物 的 量 测 谱 ; 和 矩阵 C 为 
(nXp) 阶 的 浓度 和 矩阵， 它 由 jp 个 混合 物 的 n 个 组 分 的 浓度 构成 ， 它 的 每 一 列表 示 一 个 混合 
物 对 应 的 组 分 浓度 矢量 ; 对 于 式 Y= 王 KC， 矩阵 K 为 (m Xn) 阶 的 标准 量 测 谱 和 矩阵 ， 它 设 为 
n 个 纯 组 分 在 mm 个 分 析 通 道 量 测 所 得 ， 它 的 每 一 列 代表 一 个 纯 物 质 的 量 测 谱 ; fkEC-—PY 中 
矩阵 Y MERE C 的 意义 同 前 ; 但 矩阵 了 为 (2 Xm) 阶 的 回归 系数 矩阵 ， 一 般 要 求 妈 之 和 
7M 过 2， 因为 所 用 分 析 通 道 数 必须 大 于 或 至 少 等 于 纯 组 分 数 和 用 作 校 正 的 混合 物 量 测 谱 数 ， 
否则 无 法 求解 。 当 然 ， 这 样 的 条 件 一 般 很 容易 满足 。 就 是 通过 对 上 述 两 式 的 解析 ， 尤 其 是 对 
X C=PY 的 解析 ， 产 生 了 著名 的 偏 最 小 二 乘法 PLS 和 主 成 分 回归 法 (PCR)， 下面 将 对 
这 些 间 接 校正 方法 做 出 较 详细 的 讨论 。 

(一 ) K-A 

【基本 思路 】 

天 -矩阵 法 首先 由 Brown 引入 分 析 化 学 计量 学 [35,3] 。 此 方法 的 主要 思路 是 先 通过 混合 
的 校正 矩阵 借 最 小 二 乘法 求 得 各 组 分 的 纯 物 质谱 ， 然 后 再 利用 纯 物 质谱 求 得 待 测 混合 物 各 组 
分 的 浓度 ， 这 样 做 有 以 下 两 个 好 处 : 

CD 因 各 组 分 的 纯 物 质谱 是 由 混合 物 的 校正 矩阵 求 得 ， 故 有 一 定 的 抗 非 线 性 功效 ，@ 因 
校正 矩阵 可 由 自己 确定 ， 故 可 很 方便 地 进行 实验 设计 ， 这 样 由 实验 设计 估计 的 未 知 样本 的 各 
组 分 浓度 可 望 更 准确 ， 亦 可 排除 一 些 意外 样本 (奇异 样本 ) 的 影响 。K- 和 矩阵 法 的 基本 数学 
模型 由 Y 王 KC 表 出 ， 为 一 线性 模型 ， 如 在 光谱 定量 分 析 中 ， 就 可 看 成 是 朗 伯 - 比 耳 定律 ， 
Y—KC 中 的 K 实际 上 就 是 纯 物 质 的 标准 光谱 量 测 和 矩阵 ， 它 的 每 一 列 就 是 一 个 物质 的 标准 谱 。 

【基本 算法 】 

天 -矩阵 法 的 计算 步 又 如 下 : 

(OD 用 最 小 二 乘法 求 出 K， 即 














































































































K =YC' (CC') 7 
或 者 
K' = (CC') CY' 
(2) 用 求 得 的 K 借 最 小 二 乘法 求 出 未 知 混合 体系 的 浓度 矢量 c 未 知 或 浓度 矩阵 C 未 知 
cka 一 (KTK) K'Y 未 知 
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C 未 知 =(K'K) 7 K'Y xm 

这 第 二 步 实际 就 是 在 上 一 节 讲 的 直接 校正 的 多 元 回归 方法 。 从 上 述 计算 步骤 可 以 看 出 
天- 和 珑 阵 法 要 进行 两 次 最 小 二 乘 ， 即 需 两 次 求 着 ,这样 就 难免 使 得 计算 误差 变 大 。 如 果 同 样 
采用 间接 校正 的 方法 ,但 想 只 求 一 次 逆 以 减少 误差 的 传递 扩大 ， 这 就 产生 了 所 谓 的 P- 甜 
阵 法 [40] 。 

(二 ) P-A 

P- 和 矩阵 法 以 式 以 C= 二 PY 为 其 数学 模型 ， 直 接 以 校正 矩阵 的 浓度 阵 为 预测 目标 ， 求 得 回 
归 系 数 和 矩阵 P!， 直 接 从 混合 物 量 测 和 矩阵 就 可 求 出 混合 物 的 组 分 浓度 ,这样 就 避免 了 两 次 求 
逆 过 程 ， 简 化 了 天 -矩阵 法 。 

【基本 算法 了 】 

已 和 矩阵 法 的 计算 过 程 如 下 : 

(1) 用 最 小 二 乘法 求 出 P' 


















































Pax =C oxpY oixp IO cmxp) Y ox» 071 
或 者 
P ox! = (Yonxpy Yonxp) MY osx C oix»! 


(2) 用 求 得 的 系数 矩阵 P 直接 计算 未 知 混合 体系 的 浓度 矢量 ec 未知 或 浓度 矩阵 C gom 





€ 4 = P ooo Y ka 


Ci 二 了 Gxm) xm 

这 样 类 似 于 K- 和 矩阵 法 的 计算 过 程 似乎 不 存在 问题 。 可 是 ，P- 和 矩阵 法 却 不 同 于 K- 和 矩阵 
法 ， 上 述 过 程 对 K- 和 矩阵 法 行 得 通 ， 但 对 于 P- 和 矩阵 法 的 确 存 在 问题 。 因 K- 和 矩阵 法 是 对 浓度 矩 
阵 的 协 方差 阵 〈CC+) 求 逆 ， 此 协 方差 阵 是 一 个 nXn 阶 的 和 矩阵， 是 满 秩 和 矩阵。 然而 ， 忆 和 矩 
阵 法 是 对 混合 物 量 测 矩 阵 的 协 方差 阵 YY) 求 道 ， 它 是 一 个 m Xm 阶 的 矩阵 ， 因 在 进行 多 
元 校正 时 ， 要 求 所 用 分 析 通 道 数 m 必须 大 于 或 至 少 等 于 纯 组 分 数 nw， 人 致使 其 在 很 多 情况 下 将 
为 一 奇异 矩阵 。 解 决 的 办 法 是 从 m 个 分 析 通 道 (或 为 波长 点 ) 中 选 出 ”个 组 成 新 的 混合 
量 测 和 矩阵 Y， 以 保证 其 协 方 差 阵 YY) 满 秩 。 这 样 做 不 仅 有 可 能 丢失 很 多 有 用 人 信息， 而且， 
这 n 个 分 析 通 道 亦 很 难 选 出 (有关 这 样 的 最 佳 波 长 选取 方法 可 参见 文献 [29] )。 正 如 对 多 
元 线性 回归 进行 讨论 时 指出 的 那样 ， 只 要 有 关 量 测 误差 确 为 高 斯 正 态 分 布 且 具有 和 零 均 等 方 
差 ， 则 量 测 点 越 多 ， 佑 计 浓 度 的 方差 越 小 。 也 就 是 说 ， 在 一 般 情况 下 ， 只 要 不 引进 非 线 性 量 
测 点 ， 应 该 是 量 测 点 越 多 越 好 。 所 以 ， 以 上 讨论 的 有 关 P- 窍 阵 法 的 这 一 局 限 是 一 个 很 值得 
人 研究 的 弱点 ， 就 是 对 这 一 弱点 的 克服 才 产 生 了 著名 的 主 成 分 回归 法 和 偏 最 小 二 乘法 。 

(=) 主 成 分 回归 法 

【基本 思路 】 

主 成 分 回归 法 实际 上 可 以 看 作对 P- 和 矩阵 法 的 一 种 改进 。 它 不 但 尽 可 能 多 地 保持 有 用 信 
息 ， 即 保留 所 有 的 线性 量 测 点 ， 而 且 还 保持 了 P- 和 矩阵 法 的 既 可 进行 实验 设计 又 可 一 步 求 解 
的 优点 。 它 采用 多 元 统计 中 的 主 成 分 分 析 方 法 ， 先 对 混合 物 量 测 和 矩阵 Y 直接 进行 分 解 ， 然 后 
只 取 其 中 的 主 成 分 进行 回归 分 析 ， 故 有 主 成 分 回归 之 称 。 对 Y 和 窍 阵 进行 直接 分 解 在 数学 上 有 
几 种 方法 。 在 化 学 计量 学 中 一 般 采 用 的 方法 是 非 线 性 授 代 偏 最 小 二 乘 算法 (NIPALS)[41，。 
这 种 方法 实际 上 是 源 于 Von Mises 的 乘 寡 法 咏 ] 。 另 一 种 方法 是 线性 代数 中 常用 的 奇异 值 分 
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解法 (SVD)， 由 于 此 法 思路 清晰 ， 便 于 理解 。 下 面 将 以 SVD 为 主要 讨论 对 象 对 主 成 分 回归 
进行 介绍 。 
首先 ， 奇 异 值 分 解法 可 将 任意 阶 实数 矩 阵 分 解 为 三 个 矩阵 的 积 ， 即 

Y mxp —USV: 

AP, S HIAR, CET Y ERE WIE; U 和 Vt 分 别 为 标准 列 正 交 和 标准 行 
EZE, HUUSI VV=I, MEH, U MVt 分 别 收集 了 s 和 矩阵 中 的 特征 值 对 应 的 列 特 
征 矢 量 和 行 特征 矢量 ， 即 也 三 La ，x ，…，up] füV — [vis vss cn vule fEfESEYE CE 
及 多 元 统计 的 主 成 分 分 析 中 ， 一 般 被 称 为 得 分 〈score) 矩阵 和 和 荷载 (loadings) ABI, ER 
分 分 析 的 数学 与 几何 意义 见 图 6-14。 现 在 ， 来 看 看 已 矩阵 的 数学 模型 C 王 PY， 如 果 可 求 得 
量 测 和 矩阵 Y 的 广义 道 Y1+ ， 那 么 , P 和 矩 阵 可 以 直接 求 出 ， 即 了 一 CY+ 。 


A, 0 
Aa 
0 23 


E BU ABI 
( 行 正 交 和 矩阵 ) 



















































































量 得 分 矩阵 
( 列 正 交 和 矩阵 ) 








特征 投影 区 
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PC, 


主 成 分 分 析 数学 与 几何 意义 示意 图 





事实 上 ， 利 用 奇异 值 分 解 方法 ， 很 容易 得 到 任意 实数 矩阵 的 广义 逆 。 任 何 量 测 过 程 都 存 
在 量 测 误差 ， 所 以 混合 物 量 测 矩阵 可 以 表示 为 
Y -Y' +E 

AF, Y 表示 只 含混 合 物 的 量 测 值 和 一 部 分 植 人 误差 的 矩阵 〈 参 见 本 章 的 主 成 分 分 析 
的 误差 理论 ); E 表示 误差 矩阵 ， 它 是 被 舍弃 的 即 很 小 的 奇异 值 代表 的 那 部 分 特征 列 矢 量 和 
特征 行 矢 量 的 乘积 ， 有 时 也 称 为 主 成 分 模型 误差 。 注 意 ， 这 部 分 量 测 误差 是 与 婚 正 交 的 ， 
它 与 实际 量 测 误差 不 完全 统一 。 

已 设 ”是 体系 的 组 分 数 ， 这 样 ， 如 果 体 系 确 为 线性 体系 ， 则 这 种 情况 下 的 体系 主 成 分 
数 应 为 nw， 即 此 时 由 奇异 值 分 解 算法 所 得 的 收集 了 Y 矩阵 的 特征 值 对 角 和 矩阵 ， 应 是 前 n 个 特 
征 值 即 奇异 值 的 平方 显著 大 于 其 余 的 特征 值 ， 它 们 已 包括 该 矩阵 的 全 部 的 化 学 信息 ， 实 因 混 
合体 系 中 化 学 物种 数 就 等 于 该 混合 物 量 测 矩 阵 的 秩 。 一 般 说 来 ， 只 须 取 前 ”个 奇异 值 的 平 
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方 值 和 特征 矢量 作为 主 成 分 (有 非 线 性 因素 存在 时 ， 主 成 分 数 可 大 于 n， 在 化 学 计量 学 中 一 
般 用 交叉 效 验 方法 确定 所 需 主 成 分 数 )， 其 余部 分 可 看 成 误差 而 丢弃 。 如 记 只 取 前 ”个 特征 
值 的 S 矩阵 为 $”， 只 取 前 ?2 个 相对 应 的 特征 矢量 的 得 分 矩阵 U 为 U”， 答 载 矩 阵 V 为 V*， 
那么 有 




















Y? —-U*S*Vyv 
对 此 式 可 以 直接 求 出 剔除 了 主 成 分 模型 误差 的 重 构 混合 物 量 测 矩 阵 Y 的 广义 逆 
yov «vV*(S*)1U'* 

容易 证 明 ,， Yo 的确 满 足 广义 道 定义 的 四 个 条 件 (参见 第 十 一 章 )。 

求 得 剔除 了 误差 的 量 测 和 矩阵 Y" 的 广义 逆 Y?'+ ， 主 成 分 回归 法 的 计算 过 程 就 不 难说 明了 。 

【基本 算法 】 

下 面 将 介绍 两 种 算法 。 

(1) SEI 

D 用 奇异 值 分 解法 ， 由 式 (6-48) 求 出 量 测 和 矩阵 的 广义 逆 Y"* ， 然 后 用 它 求 出 回归 系 
JOB RE P 























P —CY?* =CV* (S* )1U'* 
2) 用 求 得 的 系数 矩阵 P 直接 就 可 计算 c 未 知 或 Cka BI 


C 未 知 — Py 未 知 


C 未 知 二 PY 未 知 

从 上 述 讨论 中 可 以 看 到 ， 主 成 分 回归 法 既 保 持 了 PP- 和 矩阵 法 的 可 进行 实验 设计 和 一 步 计 
算 的 优点 ， 又 克服 了 疡 和 矩阵 法 要 丢失 大 部 分 量 测 信息 及 损失 估计 准确 性 的 弱点 ， 确 为 一 很 
好 的 间接 校正 方法 ， 近 年 来 在 化 学 计量 学 中 得 到 了 广泛 的 应 用 [4 。 

(2) 算法 工 

1) 对 混合 物 量 测 和 矩阵 Y 进行 正 交 分 解 ， 即 

一 USV =U * S* V'* =U* G'* 

在 这 里 U* ，S* , V'* 的 意义 同 前 ， 实 际 上 ， 这 一 正 交 分 解 就 相当 于 主 成 分 重 构 ， 并 且 
要 on 
2) 用 G' 对 浓度 矩阵 C 进行 回归 可 得 回归 系数 了 泗 R， 即 对 C= 二 RG'* 式 进 行 最 小 二 乘 
算 : 

R—CG* (G'* G* )! 2C(V* S )(S* V'* V* $*5! 一 C(V S* )(S* S* )-! 

—C(V*S*)S*?y-—Cvy*(S*)7 


3) 预测 未 知 样本 量 测 矩阵 Y 未 知 ， 因 为 























Di 








Ykm =U * Gi 
所 以 
Gig —U Ya 
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Cu =RG $y =RU ''Y ġa 





















































事实 上 ， 
Cg —RU'^'Y4g —CV* (S^) !U^"'Y goa 
—CY?"Y jg 
— PY xa 
可 见 ， 这 两 种 计算 过 程 殊途同归 。 
(四 ) 偏 最 小 二 乘法 
【基本 思路 】 





主 成 分 回归 法 的 主要 思想 是 直接 对 混合 物 量 测 和 矩阵 Y 进行 正 交 分 解 ， 继 而 用 浓度 矩阵 C 
对 被 分 解 的 正 交 主 成 分 进行 回归 。 偏 最 小 二 乘法 则 更 进一步 ， 它 不 但 对 混合 物 量 测 矩 阵 Y 进 
行 正 交 分 解 ， 而 且 在 分 解 了 的 同时 将 浓度 矩阵 C. 也 进行 正 交 分 解 ， 这 样 浓度 矩阵 的 主 成 分 
也 被 分 离 出 来 : 























Y=USV'=U*S*V'* -Ey —T^V*' - Ey 
C —PGQ' -P* G' Q"' KEc —R* Q" —- Ec 


这 里 ， 由 混合 物 量 测 和 矩阵 Y 分 解 得 到 的 矩阵 T* 以 及 由 浓度 矩阵 C 4 ET SUBUAREER* ， 代 
表 了 除去 大 部 分 噪声 后 的 响应 和 浓度 的 信息 。 而 且 ， 在 同时 进行 分 解 时 ， 考 虑 了 和 矩阵 工 * 和 
ERE R * 之 间 应 有 的 线性 关系 ， 这 就 构成 了 偏 最 小 二 乘法 不 同 于 主 成 分 回归 法 的 主要 之 处 ， 
BU TEAM ABEEY 时 考虑 矩阵 C 的 因素 ， 而 在 分 解 矩 阵 C 时 考虑 矩阵 Y 的 因素 ， 交 互 效 验 相 
互 影响 ， 通 过 迭代 时 交换 和 欠 代 矢量 而 使 两 个 分 解 过 程 合 二 为 一 。 

偏 最 小 二 乘法 的 迭代 过 程 是 通过 由 H. Wold 提出 的 非 线性 迭代 偏 最 小 二 乘 算法 (NI- 
PALS) 而 完成 的 。 具 体 计 算 步 又 如 下 : 

D 取 浓 度 阵 C 的 某 一 列 ， 记 为 上 >， 作 分 解 的 初始 迭代 矢量 。 

2) 以 r+ TREE T * 和 矩阵 的 分 解 矢 量 上 来 计算 v! (V'* 矩阵 的 一 行 ): 

vt =r'Y/ (r'r) 

注意 : 以 上 两 步 等 于 是 用 浓度 阵 C 83 X INEA KNR RE RIY E EERA 
f. P ARM 浓度 阵 C 的 信息 

3) 对 所 求 矢量 v't 进行 标准 化 〈 归 一 fb) 处 理 ， 


vi — vig / ll vig | 


4) 由 v! 来 计算 矢量 1 (T * 矩阵 的 一 列 ) : 
















































































t —Yv/Cyv!v), 
5) 以 1 ICE R * 5RIEITI A EIE r Kiq O 矩阵 的 一 行 ) : 
q'—t'C/G't) 


注意 : 这 一 步 等 于 是 用 YY 矩阵 的 分 解 和 失 量 t 作为 C AEIRAM GIEXAR EX. ABHSEX 
一 正 交 分 解答 阵 〈@ EE 的 一 行 。 这 说 明 分 解 浓度 阵 C 时 也 利用 了 短 阵 Y 的 信息 
6) 对 所 求 矢 量 qt 进行 标准 化 〈 归 一 化 ) 处 理 : 
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q —4i /| din | 
7) 由 gq! 来 计算 矢量 r(R* 和 矩阵 的 一 列 ): 
r —Xq/(q'q) 
8) 判断 t dE. BU ‖ tus ae tee 是 否 小 于 某 一 给 定常 数 9。 如 收敛 则 开始 下 
一 步 主因 子 分 解 (参见 下 文 );， 否 则 ， 返 回 到 第 二 步 ， 继 续 进 行 主 因子 分 解 提 代 。 注 意 ， 此 
时 返回 第 二 步 应 利用 第 七 步 所 求 的 矢量 + 来 计算 。 
因 这 样 计算 出 来 的 t 值 已 失去 正 交 性 质 ， 可 以 引入 补充 的 计算 环节 使 之 保持 正 交 ， 但 这 
对 本 书 所 讨论 的 多 元 校正 的 问题 无 关 紧 要 。 上 述 计 算得 到 的 g、v! 应 予 保留 ， 供 下 一 步 测 试 
时 用 。 如 要 求 在 测试 时 检验 校正 模型 是 否 正确 ， 则 xr、t 也 须 保留 。 
下 一 步 计 算 r 与 上 之 间 的 内 部 关系 ， 进 行 回归 运算 : 
b =r't/(t't) 
以 上 计算 过 程 可 用 图 6-15 表示 。 值 得 指出 的 是 ， 以 上 计算 的 各 分 解 矢量 均 对 应 第 一 个 
主因 子 ， 即 x1 、gi、t1、vi1， 为 简洁 起 见 ， 在 上 述 过 程 中 下 标 均 略 去 。 下 一 步 计 算 残 差 阵 : 
Ey. | =Y — fir] 























Ec, ı =C —riqi =C —bitiqi 


以 Ey 代替 YY， 以 Eci1 代 蔡 C。 返 回 上 述 的 主因 子 迭 代 过 程 ， 计 算 下 一 个 主因 子 ， 得 
r2、q3、tz、y3， 义 可 计算 下 一 步 残 差 阵 Ey, 和 十 c,2， 依 此 类 推 ， 直 至 找 出 Y 和 C 的 全 
部 主因 子 为 止 。 主 因子 的 数目 可 用 交互 效 验 法 或 方差 比较 来 决定 。 












































PLS 投影 及 内 相关 示意 图 





对 于 未 知 试 样 ， 由 其 量 测 的 矢量 未知 或 其 量 测 的 矩阵 Y 未 知 ， 利 用 Y 王 TV 的 关系 及 
在 校正 步骤 中 存储 的 V'* ， 可 算出 tgm HEBEL Sr 的 关系 可 求 出 r 示 知 ， 由 存储 的 Q'* 即 可 
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求 出 C 未 知 。 

从 上 述 讨论 可 知 ， 间 接 校 正 的 天 和 矩阵 法 、 疡 和 矩阵 法 、 主 成 分 回归 法 以 及 偏 最 小 二 乘法 
是 一 脉 相 通 、 相 互 连 贯 的 ， 从 中 可 以 明显 地 看 出 一 个 逐步 发 展 的 过 程 。 闫 和 矩阵 法 克服 了 天 - 
和 矩阵 法 要 求 两 次 逆 而 引起 误差 扩大 的 缺点 ; 主 成 分 回归 法 则 克服 了 疡 -和 矩阵 法 不 满 秩 求 逆 或 
丢失 光谱 信息 的 弱点 ， 采 用 主 成 分 分 解 了 矩阵 EWE 以 得 其 广义 逆 ， 从 而 显著 地 改善 
了 产 和 矩阵 法 ， 偏 最 小 二 乘法 不 但 立足 于 分 解 二 矩阵 ， 而 且 还 同时 分 解 C 矩阵 (浓度 校正 矩 
阵 )， 并 且 在 分 解 Y E ENA E C 矩阵 的 因素 ， 在 分 解 C 矩阵 时 考虑 Y 矩阵 的 因素 ， 加 强 双 
方 回 归 对 应 计算 的 关系 ， 以 求 获 得 最 佳 回归 预测 的 效果 。 
由 于 主 成 分 回归 法 与 偏 最 小 二 乘 回 归 法 对 玉 和 矩阵 法 和 疡 矩阵 法 给 出 了 显著 性 的 改进 ， 
故 近 年 来 得 到 了 相当 广泛 的 应 用 ， 而 且 ， 在 方法 本 身 的 理解 和 改进 上 ， 广 大 化 学 计量 学 家 也 
进行 了 大 量 的 工作 ， 其 中 较 著 名 的 有 Hoskuldsson 对 偏 最 小 二 乘法 的 解释 和 说 明 ， 他 证 明了 
高 最 小 二 乘法 本 质 上 是 对 Y'CC'Y 或 C'YY'C 的 分 解 CL9，ManneL45] 从 算法 的 角度 说 明了 ， 
相对 于 主 成 分 回归 的 是 对 Y 和 矩 阵 进行 对 角 分 解 ， 则 PLSI 就 相当 于 对 并 矩阵 进行 二 对 角 分 
fit. PLS2 相当 于 对 Y 矩阵 进行 三 对 角 分 解 。 

将 多 元 间接 校正 方法 的 计算 公式 分 列 于 表 6-3， 以 更 简洁 的 形式 说 明 它 们 之 间 的 关系 。 


aB 间 接 多 元 校正 方法 的 矩阵 计算 比较 
































































































































上 
数学 模型 Y=KC C=PY 
校正 K=YC'(CC') ^! P-—CY'(YY) ! 
K'=(CC') 'CY' P'=(YY') ‘YC 
预测 cka — OK! KO! K'y og C 未 知 — Poosoo Y kA 
Cza =(K'K) ! K'Y jon Cka — P axmY xia 
PCR PLS2 PLSI 
Y-U'S'V* Y —URW: Y —URW!: 
Y*—V*(S*)-!U* Y^ —WR !U' Y^ =WR !U' 
P=CY` P=CYT P=CYT 
S^ XI fap R : =X} ffi [e RS fh E E 








三 、 通 用 标准 加 入 法 

经 典 分 析 化 学 中 经 常 采用 标准 加 入 法 ， 以 克服 基体 或 底 液 对 分 析 校 正 的 影响 。 事 实 上 ， 
标准 加 入 的 方法 同样 可 推广 到 多 元 校正 的 情况 。 前 两 节 讨论 的 多 元 线性 回归 和 Kalman 滤波 
算法 都 是 首先 获得 校正 所 需 的 敏感 度 矩 阵 或 是 各 物种 的 标准 谱 ， 如 果 事 和 驳 无 法 获得 标准 谱 ， 
即 由 于 待 测 样本 的 基体 条 件 不 清楚 ， 无 法 找到 标准 谱 的 量 测 条 件 时 ， 可 采用 通用 标准 加 入 
法 24 来 进行 多 元 校正 。 

【基本 思路 】 

通用 标准 加 入 法 的 实质 是 在 待 测 多 组 分 体系 中 直接 加 入 多 种 待 测 标准 物 ， 以 构成 一 个 新 
的 量 测 和 矩阵 ， 再 从 这 新 的 量 测 和 矩阵 求 得 在 此 基体 溶液 中 的 各 标准 物 的 标准 量 测 谱 ， 继 而 用 求 
得 的 标准 谱 对 待 测 多 组 分 体系 进行 直接 校正 ， 即 可 求 得 此 多 组 分 体系 的 各 组 分 的 浓度 。 

【基本 算法 】 

设 有 一 待 测试 样 y。， 其 个 组 分 的 浓度 矢量 为 c。， 向 此 试 样 进行 m 次 标准 加 入 (未 作 
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加 入 的 原始 试 样 认 作 加 入 量 为 零 的 试 样 )， 可 得 一 新 的 量 测 和 矩阵 了 Y， 有 


Y pxm = X pXxnC nxm 十 五 pxm (6-14) 
在 此 
[yu Yz Ymi | 
Yiz  Y22 Y m2 


Y=Lyi, y2,， t8 ynl-— 








| 1p 2p Jnd Ymp | 


XB. y; G51, 2, c.m) 表示 第 i 次 加 入 时 对 混合 物 进 行 量 测 所 得 的 量 测 矢量 ， 
每 次 量 测 都 是 在 p 个 分 析 通 道 或 波长 上 进行 的 。 一 般 要 求 m 二 n。 值 得 注意 的 是 浓度 阵 C, 
在 此 





tq €i ^"* 4 [Aci Aca c Ac 


ml 


Cy a Cu €32 Aciz? Aco ct ACn? 


C=C + AC = + 











Cg UT Cg [Acin Ac», dd Ac 


mn j| 








式 中 ，Ac; 表示 第 i 次 对 第 7 个 待 测 组 分 加 入 的 浓度 。 在 加 入 时 ， 必 须 使 原 待 测 样本 洲 
液 的 体积 保持 不 变 〈 即 加 入 小 体积 的 较 浓 标准 溶液 ) 或 采用 稀释 至 相同 体积 的 方法 ， 这 样 ， 
Co 可 看 作 一 个 每 列 相同 的 和 矩阵， 即 每 列 都 由 co 构成 。 式 (6-14) rP S X EEN W br E TERR 
阵 ， 它 的 每 一 列 缘 由 体系 中 各 组 分 的 标准 量 测 谱 构成 ， 即 























Til Ta * Xnl 


和 一 Lxl， X25 tts Xj 二 





LTip T2p i Tanp 





如 果 用 yo 来 组 成 一 个 与 Y HAKEE Yo, BH 


Yo Yo "77 Yo 


Yo2 Yoz `| Yoz 
Yo 一 [yo， Yos tts yo] 








Yop Yop `| Yop 
和 矩阵 Yo 中 包括 m 列 相同 的 矢量 y。， 则 有 


AY pxm —Y 一 Yo =X (Co F AC) 一 X (Co) — X pxn AC ixi 
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EPERE AY pxm 和 ACxw 丝 为 已 知 ， 采 用 最 小 二 乘法 即 可 容易 求 出 X ox. 
X — AY AC CACACt) 7 
求 得 标准 谱 和 矩阵 X， 该 体系 的 未 知 浓度 矢量 co 就 可 用 下 式 求 得 
co =(X'X) Xy, 


在 此 值得 提出 的 是 ，AC EARE A D ME m CLA MEREDVE REE, AAE E 
可 以 由 分 析 者 进行 设计 。 合 理 的 设计 当 使 各 次 加 入 的 标准 浓度 线性 无 关 ， 为 此 可 采用 因子 或 
正 交 设计 来 实现 ， 


四 、 广 义 内 标 法 


内 标 法 在 经 典 分 析 化 学 中 是 一 种 常用 方法 ， 用 来 克服 基体 或 底 液 及 仪器 漂移 对 分 析 校 正 
的 影响 ， 在 发 射 光 谱 和 色谱 分 析 中 得 到 了 广泛 的 应 用 。Lorber 等 将 内 标 法 拓 广 至 多 元 校正 
领域 ,并 称 之 为 广义 内 标 法 Ms,5°]。 他 们 着 重 对 等 离子 原子 发 射 光谱 (inductively coupled 
plasma atomic emission spectrometry, ICPAES) 的 广义 内 标 法 进行 了 详细 的 讨论 。 根 据 
Winefordner 等 的 研究 结果 [591]， 将 光谱 量 测 中 的 噪声 分 为 两 类 : 一 类 为 杂 散 噪声 (shot 
noise) ， 由 光电 子 的 统计 性 质 决 定 ; 另 一 类 为 低频 噪声 ， 或 称 之 为 波动 噪声 (fluctuation or 
flicker noise) ， 它 们 主要 由 分 析 物 进 样 速率 的 漂移 和 光源 漂移 所 引起 。 在 分 析 化 学 中 ， 一 般 
采用 内 标 法 来 降低 非 随机 波动 噪声 [5°] Barnett. Fassel 和 Kniseley 对 发 射 光 谱 的 内 标 法 进 
行 了 系统 的 研究 ， 而 且 还 提出 了 多 条 使 用 内 标 法 时 必须 给 予 特别 注意 的 事项 1,5:。 值 得 提 
出 的 是 ， 对 于 这 些 实验 ， 他 们 是 在 直流 电 或 火花 光源 的 发 射 光 谱 中 做 的 ， 此 时 经 典 内 标 法 确 
实 可 以 降低 非 随机 的 波动 噪声 ， 但 是 对 于 等 离子 发 射 光 源 却 作 用 有 限 5552J 。 为 此 ，Lorder 
等 提出 了 广义 内 标 法 ， 甚 主要 目的 在 于 克服 仪器 的 漂移 。 此 法 可 拓 广 至 任何 多 通道 同时 测定 
仪器 分 析 方法 。 与 经 典 内 标 法 相反 ， 广 义 内 标 法 是 同时 利用 来 自 具有 不 同 物理 参数 的 多 通道 
的 信息 来 进行 非 随机 波动 品 声 校正 的 。 

如 图 6-16 所 示 ， 广 义 内 标 法 的 计算 步骤 包括 三 步 : 中 将 p 个 内 标 物 的 光谱 线 的 波动 信 
息 转 换 成 x 个 仪器 的 漂移 参数 ; ONT xr 个 仪器 的 漂移 参数 来 计算 已 知 浓度 的 分 析 信 号 
(或 称 为 训练 集 ) 的 漂移 程度 ; 用 所 得 的 分 析 信 号 (或 称 为 训练 集 ) 的 漂移 程度 对 未 知 分 
析 物 的 分 析 信 和 号 进行 浓度 校正 。 下 面 将 就 此 三 个 计算 步骤 分 别 加 以 具体 说 明 。 

下 面 介绍 计算 ”~ 个 仪器 的 漂移 参数 的 方法 。 

假设 第 i 个 分 析 信和 号 的 波动 漂移 用 z 表示 ， 而 且 它 是 7 个 仪器 的 漂移 参数 (r 二 p) 的 
线性 组 合 。 这 样 就 可 以 用 以 下 线性 方程 组 来 表示 这 一 关系 : 
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£j —uydi ui2d2 十 2U13d3 a t b uad, 

















Z —ugdi u53d2 十 M23d3 H us d, 








z,-—uyidi-cuygda tupda d updr 














如 果 用 矩阵 形式 表述 ， 可 得 
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z —Ud 


d = (U'U) !U'z 





RP, 口 是 一 个 XO MER d 是 一 个 含 r 个 仪器 的 漂移 参数 的 矢量 ;< 则 是 含 p 
个 分 析 信号 的 波动 漂移 值 的 矢量 。 
| i | p^ 

















转换 

| | | 7 个 仪器 参数 
Y 
校准 














未 知 物 分 析 信 号 | | | | | 校准 了 的 分 析 信和 号 
y 





比较 校正 














未 知 物 浓度 




















广义 内 标 法 的 计算 步骤 流程 图 

















在 以 后 的 讨论 中 将 看 到 ， 由 上 面 几 个 式 子 示 出 的 广义 内 标 法 的 线性 模型 只 是 一 个 简单 的 
近似 模型 。 要 真正 描述 信号 的 波动 不 能 简单 把 它 看 成 多 种 系统 波动 的 一 种 加 合 。 为 了 建立 起 
一 个 适当 波动 模型 的 基础 ， 有 必要 先 给 出 一 些 有 用 的 定义 。 因 为 等 离子 体 ACP) 是 一 个 用 
得 很 普遍 的 原子 发 射 光谱 仪 的 光源 (AES)， 所 以 ,在 这 里 就 以 它 来 说 明 化 合 物 分 析 过 程 中 
的 概念 。 图 6-17 为 ICP 的 化 合 物 量 测 体系 的 示意 图 ， 在 图 中 显示 了 系统 怎样 将 样本 (输入 
信号 ) 转变 成 光谱 输出 信号 。 在 此 光谱 检测 体系 及 电子 读数 系统 没有 考虑 ， 实 因 它们 对 信和 号 
的 影响 仅 限 于 杂 散 噪声 ， 而 这 些 杂 散 噪声 相对 于 低频 噪声 是 完全 可 以 忽略 的 。 在 图 6-17 中 ， 
每 个 系统 都 由 一 种 函数 形式 给 出 ， 其 输出 信号 的 大 小 应 该 由 图 中 右边 的 系统 参数 来 决定 ， 最 
终 输 出 信号 则 是 这 些 转 换 函 数 信号 的 乘积 。 

根据 系统 理论 ， 一 个 化 合 物 量 测 体系 的 脉冲 响应 LA)] 是 一 个 线性 系统 。 如 果 脉 冲 响 
应 是 已 知 的 ， 则 最 终 和 输出 信号 EG 能 由 输入 信号 X Go 与 脉冲 响应 Ch GO ] 的 卷 积 算出 553] 



































eo = faoa r)dr =h (t) * X(t) 


如 果 每 个 子 系统 的 脉冲 响应 都 已 知 ， 则 整个 体系 的 输出 信号 可 由 图 6-17 所 示 的 3 个 子 系统 
的 脉冲 函数 的 卷 积 表 出 











&o = hx r)dr —-hi(r) * har) * har) * X(t) 
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系统 参数 
样本 
zk T "o 进 样 
汽化 Bc 
转化 过 程 M ~| Cio 
分 析 物 密度 
冷气 流速 
等 离子 化 过 程 
发 射 熔 化 Bl RP 能 源 














等 离子 发 射 光谱 量 测 过 程 示 意图 


然而 ， 由 于 各 子 系统 的 脉冲 响应 在 实际 的 分 析 过 程 中 是 很 难 测 得 的 ， 所 以 ,在 实际 的 分 析 过 
程 中 ， 人 们 总 是 根据 各 子 系统 的 输入 参数 来 代替 各 子 系统 的 脉冲 响应 。 一 般 说 来 ， 从 各 子 系 
统 的 输入 参数 转换 到 系统 脉冲 响应 的 函数 是 未 知 的 。 然 而 ， 只 要 以 下 的 条 件 满足 ， 就 可 以 用 
输入 参数 来 描述 系统 的 输入 和 输出 信号 。 这 些 条 件 是 : 影响 输出 信和 号 的 系统 输入 参数 都 被 
考虑 ; 局 系 统 输入 参数 是 互 不 相关 的 ; 加 每 个 系统 转换 的 函数 关系 g; 与 分 析 体系 设置 的 系 
统 参 数值 pi 之 间 的 关系 可 以 从 实验 估 出 。 

在 变化 子 系统 的 参数 时 可 以 看 到 输出 信号 的 变化 ， 从 而 得 到 它们 的 函数 关系 ， 由 于 各 子 
系统 是 互 不 相关 的 ， 所 以 ， 整 个 系统 的 输出 信号 将 是 各 子 系 统 函 数 转换 值 的 乘积 。 

注意 到 从 进 样 到 信号 输出 所 需 的 时 间 相 对 于 积分 时 间 来 说 是 短 的 ， 故 可 以 忽略 时 间 因 
素 。 这 样 ， 可 以 得 到 以 下 的 简化 关系 式 














£— [Le cox (6-15) 


此 式 的 乘积 将 包括 所 有 的 子 系统 参数 和 输入 信号 ， 它 可 以 是 在 任 一 时 间 单 位 中 的 积分 值 。 

由 式 (6-15) 示 出 的 输出 信号 表达 式 实际 上 给 出 了 等 离子 发 射 光 谱系 统 模型 的 精确 度 的 
限制 。 为 了 得 到 高 的 精确 度 ， 就 要 求 对 子 系统 输入 参数 能 精密 控制 ， 其 精密 度 最 好 能 与 输出 
的 光 信 号 相当 ， 而 这 一 般 难 以 做 到 ， 另 一 个 办 法 是 用 与 该 分 析 体 系 具 有 相当 精密 度 的 传感器 
来 对 这 些 子 系统 输入 参数 进行 测量 ， 然 而 这 也 不 现实 。 但 采用 内 标 法 (IRM) 可 以 达到 同样 
的 效果 。 

所 谓 内 标 法 (internal reference method，IRM) ， 是 指 已 知 通过 量 测 与 分 析 样 本 时 具有 
完全 相同 的 系统 参数 信号 来 进行 系统 波动 校正 的 方法 。 

VUE. UBI; GS=1, = s) 来 代表 输出 信号 ， 信 号 中 的 偏差 就 由 一 相对 信号 ID 来 
表 出 ， 它 实际 上 相当 于 即时 的 分 析 信 号 对 系统 参数 设置 值 的 比值 。 
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参考 信号 为 ee ps 特定 时 期 内 的 积分 值 。 参 考 信 号 
ei 而 Txt 则 表示 第 j 个 系统 参数 发 生变 化 ， 而 其 他 系统 参数 


都 不 变 时 的 内 标 输 出 信号 ,， B 
It, j =I R; GO 其 余 $; x $j 都 保持 不 变 





而 且 ， 整 的 参考 信号 I 等 于 





res [qp Pi (6-16) 


通过 如 此 定义 的 内 部 参考 信号 ， 很 明显 ， 可 以 通过 单个 的 参考 信号 来 代替 仪器 的 参数 ， 而 


通过 


且 ， 由 式 6-10 示 出 的 化 合 物 的 参考 信号 与 式 (6-15) 示 出 的 输出 信号 与 系统 参数 的 作用 
是 统一 的 ， 从 而 克服 了 分 析 信 号 直接 与 系统 参数 联系 的 困难 。 对 于 一 个 单独 的 内 标 ， 其 分 析 


JEŽ 
信号 就 相当 于 给 出 了 一 个 参考 信号 。 
由 图 6-17 所 示 的 内 标 法 的 计算 过 程 如 下 ， 利 用 下 述 方程 组 ， 在 测 得 p UTR (po 


r) 的 基础 上 ， 用 它们 来 计算 单个 参考 信号 












































perm. j 
B=[|[; 
r=], 
I$ — [[15. ; 





其 余 的 描述 函数 关系 的 方程 可 由 下 式 来 求 得 
IR ;二 $j dR) (其 余 di Agi 都 保持 不 变 (6-17) 








这 样 ， 就 可 利用 求 得 的 单个 参数 的 参考 信 Pe iba ASIT, Æ, i 表示 第 i 个 分 
析 信 号 (i 二 gqg，…，s)。 所 谓 的 计算 分 析 信 号 是 通过 固定 被 分 析 的 化 合 物 的 浓度 而 测 得 的 。 


这 样 的 计算 方程 由 下 式 表示 出 ， 





= [E s,. Ur j) 
=|]; AR, 33 (6-18) 





= 11s,.. I, j 
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如 果 分 析 物 的 浓度 不 变 ， 比 率 12/17 应 该 为 一 个 单位 量 ， 所 以 ， 任 何 浓度 的 变化 可 以 从 这 
一 比率 的 变化 中 求 得 ， 即 














RP., p; 是 分 析 的 校正 函数 。 如 果 把 分 析 物 的 浓度 看 作 输 入 信 叶 ， 那 么 式 (6-190 就 
应 有 像 式 (6-15) 那样 的 作用 。 

在 以 下 的 讨论 中 ， 将 说 明 式 (6-17), 3X (6-18) 和 式 (6-19) 可 从 3 种 不 同 的 复杂 程 
度 上 解 出 : DMB I= R RER (6-19);，@ 通 过 假设 对 所 有 单个 系统 参数 I 都 
是 一 样 的 来 解 式 (6-18) 和 式 (6-19); 四 一 般 情况 下 ， 同 时 解 上 述 三 个 方程 组 。 

(D 线性 比率 内 标 法 Cline ratio internal reference method, LRIRM) 这 就 是 大 家 都 
知道 的 IRM， 这 个 方法 是 最 简单 的 一 个 。 让 式 (6-17) 的 两 边 对 所 有 的 分 析 信 号 都 相等 ， 
即 17* 二 TRi;， 不 管 系统 参数 的 波动 ， 把 这 一 关系 代入 式 (6-19) 即 得 

















c; =$; (TR/IR) (6-20) 








这 一 方法 显示 了 对 所 有 的 分 析 线 都 具有 同样 的 依赖 性 ， 因 为 参考 线 来 自 一 个 化 合 物 ， 其 物理 
解释 为 : 分析 信 号 的 变化 来 自 化 合 物 体系 ， 而 与 任何 特殊 的 系统 或 相应 的 系统 参数 无 关 。 
(2) 分 析 物 -内 标 参 考 相 关 法 (analyte-internal reference correlated method, AIRCM) 
此 法 假设 每 个 计算 的 分 析 信 号 是 与 参考 信号 相关 的 ， 即 








I| =; OIRD (6-21) 


采用 这 样 一 个 假设 ,可 以 看 到 ， 对 于 一 个 化 合 物 量 测 体系 同样 不 可 能 分 为 系统 和 它 的 系统 参 
数 。 式 (6-21) 比 式 (6-20) 有 一 定 的 优越 性 ， 实 因 它 将 分 析 信 号 与 系统 参数 的 关系 通过 参 
考 信号 联系 起 来 。 这 些 函 数 关 系 只 能 通过 实验 测 出 ， 并 且 有 时 还 得 到 负 相 应 。 目 前 ， 有 两 种 
这 样 的 实验 方法 用 以 找到 式 (6-200 所 示 的 关系 。 第 一 种 方法 是 随机 地 将 分 析 信 号 与 参考 信 
号 取出 ,继而 采用 某 种 回归 方法 算出 它们 的 关系 ; 第 二 种 方法 是 通过 预先 设 定 系统 参数 的 变 
化 来 求 它们 之 间 的 关系 。 这 两 种 方法 都 有 各 自 的 优越 性 和 局 限 性 。 第 一 种 方法 优越 于 第 二 种 
方法 的 地 方 在 于 它 求 相关 关系 时 是 基于 进行 化 学 量 测 时 系统 的 波动 被 同时 考虑 了 ， 然而 ， 它 
却 不 能 保证 这 些 波动 是 由 系统 的 哪个 参数 的 变化 而 造成 的 。 第 二 种 方法 的 优越 性 表现 在 它 是 
通过 变化 系统 参数 来 求 得 的 。 然 而 ， 它 的 缺点 是 它 把 系统 参数 都 看 作 具 有 同样 的 作用 而 没 加 
以 区 别 。 

(3) 广义 内 标 法 (generalized internal reference method, GIRM) 广义 内 标 法 力争 对 
式 (6-170, 3X (6-18) 和 式 〈6-19) 都 来 求解 ， 其 基本 假设 是 : 系统 函数 关系 $; 可 由 一 系 
列 多 项 式 表 出 ， 即 
































o= grt bante taer bangs da 
Vij ij r Wege qr roca ge st 


UB. yg 表示 第 i 个 信号 由 于 第 j 个 系统 参数 变化 而 引起 的 相对 信号 变化 ;zj 则 表示 
参考 信号 在 第 7 个 系统 参数 变化 时 的 波动 ， 波 动 项 将 与 相对 信号 通过 下 式 联系 起 来 














y; —-I;^—1 


Re a=] 


Tj z Ij. j 
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这 样 ， 式 (6-17) 中 的 每 个 方程 就 变 为 








下 一 | Fajgr; Fagrj-dagrj-dcagr;d (6-22) 


j jj ij 





上 式 是 一 个 非 线性 方程 。 然 而 ， 相 对 于 分 析 信 和 号， 系统 波动 较 小 ， 故 可 假设 高 次 项 可 以 名 
略 。 这 样 可 将 上 式 变 为 


Vi = 2 agti 


从 上 式 可 以 看 出 ， 通 过 这 样 的 变换 ， 就 将 信号 中 的 波动 与 参考 信号 中 每 个 系统 参数 的 变 
化 联系 起 来 了 了。 这样 ， 式 (6-17)、 式 (6-18) 可 一 起 表示 为 

















1 1 1 1 1 yı 
2| 22 23 a»j Ar y» 
U31 Q32 433 a 3j Ca | ys 

zı] 
Q41) Q42? Q43 a 4j Q 4, y4 
X2 
X3 
Ul Ur2 Ur3 am a y QUE au = | Mg (6-23) 
XA 
api 4p2 Qp3 a pj a pr Yp 
LTr] 
aql a q2 a q3 a gj agr Yq 
|a 1 (0 Us3 sj Q s, J Lys | 











采用 这 样 的 线性 近似 的 理由 主要 有 两 点 : 四 这 种 方法 提供 了 一 种 解决 GIRM 的 简易 算 
法 ， 而 且 这 样 线性 解 可 以 作为 式 (6-17) 的 一 种 近似 解 ， 这 种 近似 解 可 以 看 作对 式 (6-17) 
的 一 种 逼近 ， 为 以 后 解 非 线性 的 式 〈6-17) 提供 一 个 初始 值 ，@@ 这 还 可 以 看 作 一 种 选择 内 标 
的 新 标准 及 估价 该 法 的 误差 传递 的 新 途径 。 

采用 矩阵 表示 法 ， 可 以 将 式 (6-23) 写成 




















式 中 ,A 是 一 个 ;Xp 的 矩阵 ， 它 的 元 素 就 是 a,; ; x WERA r 个 参考 信号 的 波动 的 矢 
量 ; y1 是 一 个 含有 内 标 波动 量 测 值 的 矢量 ; ys DUAE (Gr) 个 元 素 的 计算 的 分 析 信 号 的 
JE. EE. AREE A 也 可 以 分 成 两 个 子 和 矩阵 A1 和 As,， 第 一 个 子 和 矩阵 A1 包 含 了 内 标 信号 
的 系数 ， 第 二 个 子 和 矩阵 4* 则 包含 了 分 析 信号 的 系数 。GIRM 的 计算 过 程 如 下 : 

(1) 求 系统 波动 矢量 x: 
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x —(AIA1) ŻA} yı 


(2) 求 分 析 信号 的 波动 矢量 ya: 





y2 —Asx 一 4?(4141 JAY 





对 于 式 (6-17) 的 更 精确 求解 可 以 通过 考虑 zj; 的 高 阶 项 来 实现 。 例 如 ， 将 zj; 的 二 阶 
项 加 以 考虑 ， 则 式 y;723ajgzx; 变 成 











二 三 (6-24) 


这 样 ， 因 为 高 阶 项 被 包括 其 中 ， 所 以 它 的 解法 得 采用 和 迭代 方式 来 进行 ， 读 者 可 以 从 文献 
L54] 中 找到 这 样 的 算法 ， 在 此 不 再 详 述 。 

通过 实验 来 确定 式 (6-220 中 系数 ai 的 方法 有 如 下 两 种 : 一 种 是 通过 分 别 变动 每 个 系 
统 参数 求 得 ， 另 一 种 则 是 通过 同时 变动 几 个 系统 参数 求 得 。 一 般 说 来 ， 同 时 变动 几 个 参数 需 
要 搞 好 实验 设计 ， 并 且 计算 比较 困难 ， 而 每 次 变动 一 个 参数 容易 计算 些 ， 而 且 ， 每 次 变动 一 
个 系统 参数 的 方法 误差 传递 比较 小 ， 故 Lorber 等 推荐 采用 第 一 种 方法 来 求 得 系数 ai 。 

在 简单 的 内 标 法 中 ， 选 择 标准 主要 可 从 物理 上 考虑 。 而 对 广义 内 标 法 (GIRM)， 由 于 
言 号 都 直接 与 系统 参数 相关 ， 物 理 的 选择 标准 就 不 显得 那么 重要 了 ， 只 是 要 注意 到 ， 所 选 的 
内 标 分 析 通 道 的 信号 如 果 太 小 ， 就 会 造成 随机 误差 对 内 标 影 响 太 大 。 除 开 物理 标准 ，Lorber 
还 提出 了 几 个 供 参 考 的 数学 要 求 : 中 系数 矩阵 4 必须 是 一 个 满 秩 和 矩阵 ， 以 免 求 道 时 带 来 较 
大 误差 ; 四 内 标 信号 数 必须 大 于 或 等 于 所 要 考虑 的 系统 参数 数目 ，@@ 内 标的 信号 通道 必须 
选择 那些 误差 传递 比较 小 的 通道 。 有 关 广 义 内 标 法 的 应 用 可 参阅 Lorber 的 另 一 篇 文章 [5 ， 
在 此 不 再 歼 述 。 


五 、 非 线性 体系 的 校正 方法 


在 分 析 化 学 中 ， 一 般 都 假设 被 研究 体系 为 线性 加 合体 系 ， 如 在 光谱 分 析 中 就 要 服从 朗 
伯 - 比 耳 定 律 ， 这 样 就 可 用 前 述 的 多 元 校正 法 ， 即 直接 校正 法 、 间 接 校正 法 和 广义 标准 加 入 
法 来 进行 校正 ， 一 般 说 来 ， 只 要 体系 确实 是 线性 加 合体 系 ， 都 可 得 到 满意 的 结果 。 然 而 ， 一 
般 分 析 工 作者 都 知道 ，Lambert-Beer 定律 是 有 条 件 的 ， 其 中 最 重要 的 一 个 条 件 就 是 它 有 一 
个 浓度 适应 范围 ， 超 出 这 一 浓度 适应 范围 ，Lambert-Beer 定律 就 不 成 立 了 。 另 外 ， 在 波谱 
量 测 中 还 经 常 出 现 部 分 非 线性 的 情况 ， 即 在 有 些 波长 点 出 现 不 符合 线性 加 合 性 的 情况 。 这 就 
向 化 学 工作 者 提出 了 新 问题 ， 即 怎样 进行 非 线 性 多 元 校正 。 对 于 部 分 非 线 性 问题 ， 一 般 也 可 
以 采用 稳健 方法 〈 人 参见 本 章 第 七 节 ) 来 进行 校正 ， 即 把 那些 非 线 性 的 量 测 点 看 成 是 异常 值 处 
理 ， 但 是 一 般 要 求 这 样 的 非 线 性 量 测 点 最 好 不 超过 30%。 在 分 析 化 学 中 还 存在 很 多 的 非 线 
性 现象 ， 而 且 ， 对 于 这 些 非 线性 的 体系 一 般 还 很 难 找到 适当 的 数学 模型 。 近 年 来 ， 非 线性 多 
元 校正 成 了 分 析 化 学 计量 学 研究 的 一 个 热点 ， 出 现 了 不 少 的 非 线性 校正 方法 ， 如 非 线 性 偏 最 
小 二 乘法 等 。 这 些 方法 大 都 是 在 线性 模型 里 引进 非 线 性 项 ， 以 补偿 体系 中 的 非 线性 ， 在 此 不 
准备 详细 介绍 ， 有 兴趣 的 读者 可 参阅 文献 【56 ] 。 

(一 ) 人 工 神经 网 络 法 

人 工 神经 网 络 研 究 是 从 20 世纪 50 ERR, 60 年 代 初 开始 的 ， 代 表 性 工作 是 Rosenblattd 
的 感知 器 (perceptron) 和 Widrow 的 自 适 应 线性 元 Cadalnei) 97, 80 年 代 以 来 ， 以 
Hopfield 等 L553,591 的 联想 记忆 网 络 模型 、 制 约 优化 网 络 模型 、Rumelhart 等 5] 的 多 层 前 传 网 
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络 误差 反 传 算法 〈BP 算法 ) 等 为 代表 的 一 批 优 秀 工 作 的 出 现 ， 掀 起 了 人 工 神 经 网 络 研究 的 
热 泣 。 人 工 神经 网 络 因 具 有 很 强 的 非 线性 映射 能 力 而 受到 化 学 计量 学 家 们 的 普 所 关 注 。 本 节 
只 对 人 工 神经 网 络 的 基本 概念 及 多 层 前 传 网 络 误差 反 传 算法 (BP 算法 ) 做 出 介绍 ， 以 期 读 
者 对 其 有 一 个 初步 认识 。 

人 工 神 经 网 络 的 基本 思路 是 基于 人 脑 细胞 〈 神 经 元 ) 的 工作 原理 来 模拟 人 类 思维 方式 ， 
以 建立 模型 来 进行 分 类 与 预测 的 。 图 6-18 @ 给 出 了 一 个 神经 元 的 示意 图 ， 从 图 中 可 以 看 
到 ， 神 经 元 通过 神经 纤维 或 突 触 与 别 的 神经 元 相 联 系 ， 用 以 接受 来 自 别 的 神经 元 的 信息 ， 并 
将 信息 继续 传 给 别 的 神经 元 。 一 个 典型 的 神经 元 可 与 103 个 别 的 神经 元 相连 ， 所 以 人 的 大 脑 
是 一 个 相当 复杂 的 系统 。 实 际 上 ， 人 工 神 经 网 络 方法 只 是 简单 地 借用 神经 元 来 表示 一 个 计算 









































单元 [参见 图 6-18 (bo. ]， 它 也 可 以 像 神经 元 一 样 通过 网 络 与 别 的 计算 单元 相连 ， 只 是 被 
叫 作 输入 和 输出 。 





Inpi 


Inp, 
Out, 


Inpa 





Inp, 
(a) (b) 
真实 神经 元 的 示意 图 (a) 和 人 工 神经 网 络 的 计算 单元 (b) 

















6-19 示 出 了 一 个 典型 的 基于 误差 反 传 算法 的 三 层 前 传 网 络 ， 从 下 至 上 分 别称 为 输入 
层 、 隐 蔽 层 和 输出 层 。 在 人 工 神 经 网 络 的 计算 中 ， 输 入 层 一 般 表 示 为 Inp ， 它 的 每 一 个 计算 
单元 将 代表 Inp 中 的 一 个 元 素 ， 它 们 通过 连接 权重 wit H FRS BE RII S gu y™ H 
连接 。 








y$* — f wr Inpi twy ) 


Inp 
三 层 前 传人 工 神经 网 络 示意 图 
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式 中 的 f(. ) 称 为 活性 函数 ， 一 般 可 取 以 下 几 种 形式 : 

(OD fu) —sgnG0 =fr Cu). 符号 函数 ， 当 > 为 正 数 时 ， 取 1， 和 否则 取 一 1， 此 函数 用 
于 处 理 模式 识别 时 很 有 用 。 

(2) f(u)—(0-cre")!—f,Qu) ys 型 非 线性 函数 ， 其 输出 值 介 于 0 一 1， 进 行 非 线性 校 
正 或 预测 时 很 有 用 。 

(3) fu) —tanh(u) 非 线 性 反正 弦 函 数 ， 其 输出 值 在 十 1 和 一 1 之 间 ， 对 模式 识别 和 
非 线性 回归 或 预测 都 可 用 。 

335b. wort 称 为 偏 置 点 ， 根 据 不 同 的 情况 可 取 不 同 的 值 。 隐 藏 层 y™ 以 同样 的 方式 ， 
即 通过 连接 权重 来 与 输出 层 Out 相连 。 

所 以 ， 整 个 三 层 前 传人 工 神 经 网 络 可 由 下 式 表 出 


Out, —f wk yj" wi) 
































—fOwI SÈ wr IInp; Hwre! ); ) 十 双 jp 


从 上 式 可 以 看 出 ， 三 层 前 传人 工 神 经 网 络 实际 是 通过 一 个 相当 复杂 的 非 线性 函数 将 输入 矢量 
Inp 与 输出 矢量 Out 连 在 一 起 的 。 实 际 上 ， 这 样 的 前 传神 经 网 络 还 可 以 多 于 三 层 ， 亦 即 四 层 
或 五 层 ， 其 结构 可 依 此 类 推 。 从 此 式 还 可 以 看 出 ， 前 传神 经 网 络 的 确定 实质 上 就 是 连接 权重 
的 确定 ， 因 为 在 此 式 中 , fC), Ip 和 Out 都 是 可 预先 确定 的 ， 只 要 权重 确定 了 ， 整 个 网 络 
也 就 唯一 确定 了 。 

人 们 对 多 层 前 传 网 络 解析 能 力 的 认识 首先 来 源 于 大 量 的 模拟 实验 和 工程 实践 的 感性 认 
识 。 在 应 用 多 层 前 传 网 络 解决 模式 识别 问题 的 研究 中 ，Lippmann 通过 大 量 的 仿真 实验 得 出 
结论 [61% 中 ,采用 三 层 网 络 可 以 形成 若干 个 复杂 的 决策 域 ， 采用 四 层 网 络 则 可 以 形成 任意 复 
杂 的 决策 域 。Wieland 和 Leighton 则 通过 一 个 具体 的 例子 说 明 三 层 网 络 具 有 把 指定 空间 分 解 
成 为 若干 个 子 空间 的 能 力 [s] 。 因 此 ， 大 量 的 仿真 结果 很 自然 地 给 人 们 一 种 启示 ， 多 层 前 向 
网 络 可 能 具有 实现 任意 复杂 非 线 性 映射 的 能 

为 了 建立 人 工 神经 网 络 模型 ， 亦 即 确定 连接 权重 ，Rumelhart 55:5"? 提出 了 多 层 前 传 网 
Pigs (BP 算法 ) 。 也 正 是 这 一 算法 的 提出 ， 使 得 人 工 神 经 网 络 的 研究 又 形成 了 一 
个 热潮 。 这 一 算法 在 模式 识别 及 非 线 性 回归 方面 得 到 了 非常 广泛 的 应 用 。 所 谓 误 差 反 传 的 基 
aa 个 误差 函数 作为 训练 网 络 的 目标 函数 ， 然 后 采用 一 种 方法 根据 误差 反馈 过 
来 的 情况 以 调节 网 络 的 连接 权重 ， 从 而 达到 优化 目的 。 一 般 来 说 ， 都 是 采用 最 小 二 乘 函 数 来 
作为 目标 函数 ， 即 






















































































Min: E—1/2 [3 (Out, — Exp4)?] 


AF, Exp, R51, c. LO 为 期 望 所 得 到 的 输出 值 ; L 为 输出 矢量 的 元 素 个 数 。 

BP 算法 将 由 以 下 几 步 构成 : 

(1) 数据 预 处 理 。 大 都 采用 * 型 非 线性 函数 为 其 活性 函数 ， 即 G0 一 (1 十 e“)  。 
其 输出 值 都 介 于 0 一 1， 所 以 一 般 都 需要 对 网 络 的 输出 的 数值 进行 预 处 理 ， 使 之 同样 落 入 0 一 
1。 注 意 到 这 样 的 预 处 理 不 会 影响 问题 的 一 般 性 。 

(2) 随机 选取 网 络 之 间 的 连接 权重 wR 和 ww G S1, s n; i 二 1, com; k= 
l, t D, AP n 为 输入 矢量 的 节点 数 ( 或 称 输入 矢量 的 维 数 ); m 为 隐 节 点 数 ; 7 为 输出 
节点 数 。 一 般 就 用 (一 0. 3 一 0. 3) 的 均匀 分 布 的 随机 函数 产生 。 
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(3) ial, tts A, EA IOGEITE FER, 直至 收敛 : 


前 传 计 算 : 按照 


limi 




















yP* =f wr IInp; Hwe!) 


Out, = fÈ wh yr + wp”) 
— f(Xw EU GFO wr Inp; 二 wel 5, jwt) 
来 计算 Out, HWRE BAR EG Be. TET RARA E, 


© 反 传 调节 : 计算 出 目标 函数 对 连接 权重 的 一 阶 导 数 ， 并 以 此 来 调节 连接 权重 wr 
zw 中 。 因 在 此 只 介绍 最 陡 梯 度 法 ， 所 以 用 的 是 一 阶 导数 ， 别 的 优化 算法 同样 是 可 行 的 。 











XB. o 为 步 长 因子 ， 可 在 0~1 取 值 ; uj; 为 第 7 节点 上 的 抽象 变量 ， 一 般 视 其 是 在 给 
出 层 还 是 隐藏 层 ， 就 分 别 等 于 fO wp Inpi Mw RE SO wi y wg?) ，9; 为 梯 
度 因子 ， 对 于 不 同 层 ， 它 有 不 同 表达 式 : 











C(u; —Erpi)(u;)(1—u;) WÈ u, 为 输出 节点 





0, — 
wP UD 0 —u,) WMR a, 为 隐藏 层 节点 





在 这 里 wx(1 一 x) —u' 。 这 是 因为 
u =f} wr" IInp; wb =f) 1/039) 
所 以 有 
u =f (x) -[1/0 o e*)]/dx ——Q-d e7)7(e7)(—1) 
—[1/-4e7)](0—[1/0-4e7)]) =u —u) 


步 长 因子 o 的 取 值 大 小 对 收敛 速度 有 很 大 的 影响 ， 如 取 值 太 大 ， 则 可 能 引起 迭代 过 程 的 振 
i»: 反之 ， 取 值 太 小 会 导致 权重 调节 的 迭代 过 程 收 敛 太 慢 。 一 般 说 来 ,为 了 加 快 迭代 过 程 且 
防止 迭代 过 程 的 振荡 ， 一 般 是 在 Aw; —p0;u; 中 引入 一 个 惯量 因子 4 











Au; (a 3-1) = pÓiuj; TANwi (a) 


以 保证 迭代 收敛 速度 

人 工 神经 网 络 具有 很 强 的 非 线性 映照 能 力 ， 可 在 非 线性 多 元 校正 中 起 到 重要 作用 ， 是 一 
个 值得 重视 的 非 线性 多 元 校正 的 方法 。 荧 光 分 析 中 因 存 在 菊 光 潭 灭 现 象 ， 多 组 分 混合 时 存在 
着 非 线性 ， 而 且 其 数学 模型 不 清楚 ， 从 而 为 灾 光 分 析 的 多 元 校正 带 来 困难 。 对 一 个 含 罗 丹 明 
B、 丁 基 风 丹 明 B 和 曙 红 B 的 三 组 分 荧光 混合 体系 进行 了 调查 [%5 ， 所 得 结果 示 于 图 6-20, 
从 图 可 以 看 出 ， 此 三 组 分 体系 的 确 存在 严重 非 线 性 ， 用 偏 最 小 二 乘 (PLS) 的 分 析 结 果 示 于 
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K 6-4, WH PLS 不 具有 很 好 的 预测 能 力 ， 这 是 因为 PLS 实质 上 还 是 一 种 基于 线性 的 数学 


模型 MRA 

















日 基于 误差 反 传 的 前 向 三 层 的 人 工 神经 网 络 进行 分 析 的 结果 却 是 令 人 满意 的 ， 结 


果 示 于 表 6-5。 将 人 工 神经 网 络 用 于 化 学 研究 的 例子 可 参阅 文献 【65,66]。 

尽管 人 工 神 经 网 络 的 研究 已 取得 令 人 兴奋 的 进展 ， 但 是 ， 总 的 说 来 对 它 的 研究 无 论 在 理 
论 还 是 应 用 上 都 还 处 于 初期 阶段 ， 还 存在 很 多 问题 值得 探讨 ， 如 网 络 训练 速度 、 过 拟 合 、 全 
局 寻 优 、 网 络 结构 与 网 络 能 力 等 问题 都 存在 未 知 因素 ， 值 得 进一步 研究 。 有 兴趣 的 读者 可 参 
阅 文 献 [67—70]. 
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荧光 波长 mm 
三 组 分 非 线性 荧光 分 析 体系 荧光 光谱 图 

















R: a 为 三 组 分 混合 体系 实测 荧光 强度 曲线 ; b. c. d 分 别 为 罗丹 明 B, T HE JJ 








B, EZ B 单 组 分 测 效 光 强度 曲线 ; e 为 将 曲线 b、c、d 按 线性 加 和 计算 所 得 加 和 曲线 














PLS 对 试 样 各 组 分 浓度 预测 的 相对 误差 % 
试 样 编号 罗丹 明 B 丁 基 罗 丹 明 B REZT B 试 样 编号 罗丹 明 B 丁 基 罗丹 明 B REZT B 
1 4. 841 12. 809 14. 652 17 — 8. 286 — 23. 076 — 28. 202 
2 4. 866 —1. 514 —6. 683 18 一 0. 660 一 9. 675 — 1. 278 
3 一 7. 982 2. 611 22. 768 19 8. 076 一 0. 221 —2. 668 
4 27. 961 31. 952 42. 056 20 2. 866 — 11. 133 — 15. 747 
5 — 0. 372 0. 839 —4. 028 21 — 8. 277 — 23. 468 — 24. 575 
6 10. 816 4. 502 3. 898 22 — 22. 460 0. 366 —4. 781 
7 0. 439 580 1. 759 23 — 17. 494 — 21. 628 — 26. 986 
8 — 2. 948 10. 271 7. 699 24 — 21. 502 — 14. 432 — 16. 078 
9 4. 732 7. 281 7. 638 25 — 6. 821 9. 258 0. 737 
0 26. 259 4. 587 18. 773 26 2. 345 11. 987 0. 670 
11 —58. 106 一 26. 017 一 44. 797 27 10. 335 7. 050 4. 199 
2 0. 500 — 13. 927 — 11. 580 28 一 4. 557 3. 902 3. 219 
13 一 7. 042 一 0. 099 6. 747 29 一 13. 466 6. 116 一 12.01 
4 — 24. 314 — 3. 130 — 6. 833 30 一 4. 315 2. 311 14. 686 
15 一 45. 164 36. 420 29.213 | 绝对 值 平均 12. 871 10. 247 4. 058 
16 — 28. 326 — 5. 238 — 6. 770 
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第 六 多 元 校正 与 多 元 分 辩 
BP-ANN 对 试 样 作为 未 知 集 时 各 组 分 浓度 预测 的 相对 误差 
罗丹 明 B 丁 基 罗 丹 明 B 昌 红 B 
试 样 编号 Co/ Co e, / 96 co/ €,/ el% €o/ CE e, / 96 
(pg/ml) | (pg/ml) : (ng/ml) | (pg/ml) j (ng/ml) | (ug/ml) s 

1 2.994 3. 030 1. 213 1. 892 1. 832 —3.164 5.971 5. 635 —5. 621 
2 3. 368 3.119  |—7.392 2. 648 2. 618 —1. 144 5. 598 5. 450 —2.644 
3 1.871 1.787  |—4.488 1. 892 1. 906 0. 785 6. 344 6. 182 —2.552 
4 1.871 1. 917 2. 442 2. 648 2. 650 0. 053 6. 717 7. 052 4. 981 
5 2.994 2.931 |—2.111 3. 405 3. 494 2.615 7.090 7. 317 3.196 
6 3. 368 3. 518 4. 449 3. 027 2.957 —2.311 7. 464 7. 301 —2.175 
7 4.117 4.105  |—0.287 3. 405 3. 305 — 2.947 9. 703 9. 926 2. 304 
8 4. 865 4.620  |—5.041 4. 162 4. 115 —1.133 | 10.822 10. 453 —3.416 
9 4. 49 4.486  |—0.119 3. 784 3. 695 —2.346 | 10.076 9. 923 —1.518 
10 2. 994 3.171 5. 902 5. 297 5. 116 一 3.420 9. 330 9. 501 1.833 
1 2.245 2.068  |—7.914 513 . 603 5.951 3. 732 3. 634 —2.611 
2 4. 491 4.433  |—1.292 3. 027 3. 061 1.126 | 10.076 9. 814 —2.601 
3 2.620 2. 719 3.774 892 770 — 6.446 5. 224 5. 316 1. 752 
14 1.87 1. 988 6. 262 2. 270 2.147 —5.436 4. A78 4. 440 — 0. 848 
15 1. 497 1. 497 0. 050 1. 513 1. 667 10.18 4. 105 4. 302 4. 814 
16 2. 245 2. 224 0. 931 1. 892 1. 822 一 3. 695 4. 478 4. 468 一 0.216 
7 .871 2. 038 8. 899 3. 027 3. 073 1.534 . 851 5. 154 6. 252 
8 492 1. 659 10. 82 2. 648 2. 718 2.644 478 5. 007 11. 82 
9 4. 117 4. 512 9. 592 4. 162 4. 124 —0.917 196 1. 379 . 638 
20 3. 743 3. 878 3. 630 3. 784 3. 601 一 4.836 | 11.569 11. 375 —1. 672 
21 2. 994 3. 214 7. 345 5. 676 5. 217 —8.072 | 11.942 11. 777 — 1.380 
22 5. 614 5.169  |—7.919 4. 540 4. 700 3.518 | 11.569 10. 963 —5. 237 
23 3. 368 3. 442 2.186 4. 162 4. 245 1.996 196 0. 708 一 4. 357 
24 4. 491 4.339  |—3.386 5. 297 5.271 — 0. 487 912 1. 731 —1.770 
25 3. 743 3.508  |—6.268 4. 162 4. 098 —1.525 7. 464 6. 978 — 6.499 
26 4. 491 4.158  |— 7.424 2. 648 2. 806 5.943 8.583 8. 016 — 6.604 
27 3. 743 3. 954 5. 643 3. 027 2. 845 — 6.004 7.837 7. 908 0. 905 
28 4. 117 4. 135 0. 449 3. 784 3. 745 —1.013 9. 330 9. 740 4. 403 
29 2.620 2. 798 6. 802 3. 405 3. 741 9. 862 7. 464 7.137 —4.373 
30 4. 491 4. 679 4. 173 3. 784 3. 730 —1. 425 8. 210 9. 078 10.57 
平均 4. 696 3. 418 3. 685 

注 :c 为 组 分 实际 浓度 ;c, 为 组 分 预测 浓度 ;e, 为 未 知 集 浓度 预测 相对 误差 。 





《二 ) 支持 向 量 














机 





支持 向 量 机 (support vector machines, SVM) 是 Vapnik 等 [472 基于 统计 学 习 理 论 
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(statistical learning theory, SLT) 提出 的 一 种 新 的 基于 核 函 数 的 机 器 学 习 算 法 。 此 前 的 大 
多 数 机 器 学 习 算 法 采用 经 验 风险 最 小 化 (empirical risk minimization, ERM) 准则 ， 要 得 到 
一 个 具有 好 的 泛 化 能 力 的 模型 ， 往 往 需 要 大 量 的 样本 ， 帮 样本 量 小 ， 则 容易 出 现 过 拟 合 ， 降 
低 了 模型 的 预测 能 力 。 在 此 介绍 的 文 持 向 量 机 ， 非 常 适 合 小 样本 学 习 的 优秀 的 算法 ， 它 以 核 
函数 为 基础 ， 以 结构 风险 最 小 化 〈structural risk minimization, SRM) 为 建 模 目标 ， 采 用 
优化 算法 训练 得 到 一 个 具有 最 大 边界 (margin) 的 分 类 模型 ， 提 高 了 分 类 模型 的 泛 化 能 
其 算法 的 基本 思想 是 : 中 利用 选 定 的 核 函 数 将 训练 数据 集 从 输入 空间 非 线性 地 映射 到 一 个 高 
维特 征 空间 ; 外 在 此 特征 空间 中 构造 线性 判别 琢 数 ， 并 定义 此 判别 函数 的 边界 ， 四 采用 优化 
算法 ， 如 标准 二 次 规划 ， 计 算 具 有 最 大 边界 的 线性 判别 函数 ， 即 支持 向 量 分 类 机 (support 
vector classification machines，SVC) 。 实 际 上 ， 支 持 向 量 机 还 可 拓 广 至 回归 分 析 ， 以 构成 
支持 向 量 回归 机 (support vector regression machines，SVR)， 与 支持 向 量 分 类 机 (SVC) 
类 似 ， 首 先是 将 原始 数据 非 线性 地 映射 到 高 维特 征 空 间 ， 然 后 采用 一 个 线性 函数 来 近似 地 回 
归 原 始 数 据 ， 即 和 WU y 在 特征 空间 的 相关 关系 。 值 得 指出 的 是 ，SVM 模型 是 唯一 的 。 下 面 
对 SVM 原理 和 支持 向 量 回归 机 做 出 简要 介绍 。 建 议 读 者 先 阅读 第 七 章 有 关 支 持 向 量 分 类 机 
的 描述 部 分 ， 因 为 文 持 向 量 机 主要 是 为 分 类 模型 设计 的 ， 而 支持 向 量 回 归 机 上 只 是 文 持 向 量 分 
类 机 的 一 种 拓 广 ， 理 解 了 支持 向 量 分 类 机 ， 对 支持 问 量 回归 机 的 理解 就 非常 容易 了 。 

1. 支持 向 量 机 的 基本 要 素 

图 6-21 示 出 了 支持 向 量 机 构建 的 基本 要 素 示意 图 。 从 图 可 以 看 出 ,支持 向 量 机 的 构建 
首先 就 是 要 获得 一 个 核 隐 数 ， 借 助 它 ， 就 可 能 将 原始 样本 投影 到 更 高 维 的 特征 空间 中 ， 继 而 
采用 优化 的 方法 来 构建 支持 向 量 分 类 或 回归 机 。 





















































































































































| 低 维 输入 空间 X ) 
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ES] 


在 高 维特 征 空间 K 中 定 
义 一 个 优化 问题 
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针对 性 优化 以 建立 相 
应 的 SVM 判别 及 回归 模型 


支持 向 量 机 的 基本 要 素 示意 图 















































2. 核 函 数 

引入 核 函 数 [3 全 的 概念 ， 就 可 使 一 些 线性 不 可 分 的 数据 达到 线性 分 离 的 目的 。 首 先 ， 
将 所 有 原始 样本 投影 到 更 高 维 的 特征 空间 之 中 ， 解 决 问题 的 机 会 就 越 多 。 但 是 ， 应 如 何 将 数 
据 投 影 到 一 个 具有 更 高 维度 的 空间 ? 核 函数 确实 为 此 提供 了 一 个 巧妙 的 解决 方案 ."”]。 它 不 
但 可 作为 一 个 维度 增加 的 技术 ， 还 可 进一步 将 线性 不 可 分 割 的 数据 转换 成 线性 可 分 。 此 外 ， 
核 函 数 的 数学 技巧 就 是 通过 计算 得 到 特征 空间 中 的 内 积 ， 即 支持 向 量 机 的 训练 过 程 中 的 重要 
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一 步 。 要 理解 这 一 点 ， 看 一 个 由 图 6-22 示 出 的 实例 。 该 图 显示 了 一 个 二 维 空间 中 线性 不 可 
分 的 情形 。 一 般 说 来 ， 对 于 这 样 的 情况 ， 需 要 采用 一 个 复杂 的 非 线 性 判别 方法 来 求解 ， 如 人 
工 神经 网 络 ， 耗 时 且 不 易 处 理 。 对 此 ， 另 一 解决 方法 可 以 通过 简单 增加 维 数 来 进行 。 对 此 
例 ， 可 以 通过 定义 第 三 维 ， 即 (z; ，zy) F>(zl1，zy，z3): — xl. J2xa. rj r2) 就 变 成 
了 三 维 空间 的 样本 ， 从 而 完成 非 线性 映射 的 过 程 ， 亦 即 完成 从 原始 的 二 维 空间 向 三 维 空间 的 
映射 。 图 6-22 就 示 出 了 经 此 特征 映射 后 ， 由 原先 线性 不 可 分 而 在 高 维特 征 空间 可 得 到 线性 
分 开 的 情况 。 
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原先 在 低 维 空间 线性 不 可 分 的 样本 在 高 维特 征 空间 可 得 到 线性 分 开 的 一 个 实例 





令 人 惊讶 的 是 ， 内 积 是 一 个 测量 的 相似 性 ， 在 高 维特 征 空间 ， 可 以 直接 在 原始 输入 空间 通过 
JLA ARRA E. KLeo), eG) ]9LDG;. x;)]? — Geix;0? 就 是 一 个 多 项 式 核 函 
数 。 多 项 式 核 具有 的 一 般 形式 如 下 。 


K(z;, z;)=(axjz; T5)" 


式 中 ,a 和 4 是 常量 ; n 表示 多 项 式 的 次 数 。 它 已 被 证 明 ， 任 何 满足 Mercer 条 件 的 都 
可 以 作为 核 函 数 。 其 他 常用 的 内 核 是 : 

ZEN: KG; rj) 一 azZizi +b 

RBF ES K(x;, x) —expC- Y ll z; =z; ll?) 

Sigmoid 核 函 数 ; K (zx;,， x;)=tanhlazix; 十 0) 

对 于 线性 核 和 Sigmoid Ez. a Mb 是 常量 ; 对 于 RBF (radial basis function). f£. y 是 
参数 整定 控制 的 核 函数 的 宽度 。 一 个 m Xm ROB EK 必须 首先 计算 其 元 素 K; 一 K(x;， 
Zz;) ， 利 用 核 函 数 的 支持 向 量 机 的 模型 构建 。 如 前 所 述 ，K; 是 在 高 维特 征 空间 中 的 i 和 j 
样本 的 相似 性 测量 。 显 然 ， 内 核 转换 的 数据 并 没有 单独 代表 ， 而 是 通过 一 组 成 对 比较 。 此 
外 ， 这 表示 不 依赖 分 析 对 象 的 性 质 ， 任 何 物体 ， 如 图 像 、 分 子 、 和 蛋白 质 序 列 等 ， 都 可 以 用 这 
种 方式 表示 。 而 且 ， 核 函数 技术 并 不 是 文 持 癌 量 机 独 有 的 技术 ， 它 也 可 以 与 其 他 方法 相 结 
合 ， 形 成 相应 的 内 核 。 例 如 ， 核 技术 可 以 被 纳入 PLS， 以 生成 内 核 PLS (KPLS)L"6."],， 能 
够 描述 数据 在 一 定 程度 上 的 非 线 性 。 此 外 ， 核 Fisher 判别 分 析 也 用 于 人 脸 检 测 575 。 

在 特征 空间 中 ， 核 函数 为 内 积 的 计算 提供 了 一 种 有 效 的 方法 。 更 有 趣 的 是 ， 借 用 核 函 数 
的 功能 ， 当 将 数据 投影 到 一 个 新 的 特征 空间 时 ， 甚 至 没有 必要 知道 非 线 性 映射 函数 集 $ (x) 
的 数学 形式 。 也 就 是 说 ， 选 择 一 个 内 核 函 数 就 是 选择 具体 的 映射 函数 集 ， 这 无 疑 与 核 有 关 。 
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一 般 来 说 ， 要 了 解 内 核 的 本 质 ， 需 要 掌握 至 少 两 个 基本 点 : 吓 它 将 原始 数据 导 和 人 空间， 通过 
添加 额外 的 维度 至 更 高 的 维度 ; @ 它 同时 提供 了 一 种 有 效 的 计算 特征 空间 中 的 内 积 的 方法 。 

3. 支持 向 量 回归 机 

支持 向 量 机 早先 主要 为 模式 识别 而 设计 ， 现 已 经 扩展 到 解决 回归 问题 。 对 于 一 给 定 的 数 
HERE D— (Gr; y). i=l, cns N ， 其 中 疙 表示 样本 向 量 ，y; 为 对 应 的 响应 ，N 为 样本 
总 数 。 支 持 向 量 回归 机 (SVR) 中 有 两 个 重要 概念 : 一 是 <- 带 ， 另 一 个 是 s Al E R PR 
数 吕 .57179,80 。 像 支持 向 量 分 类 机 〈SVC) ， 原 始 数据 是 一 非 线性 映射 到 高 维特 征 空间 ， 然 
后 一 个 线性 函数 拟 合 近似 X 和 y 之 间 的 特征 孔 数 。 

4. e - 带 与 s 不 敏感 损失 函数 

以 一 个 单 变量 函数 为 例 来 说 明 e- 带 的 含义 [参见 图 6-23 (a) ]. e - 带 是 指 两 虚线 之 间 
的 区 域 。 这 个 区 域 可 通过 在 上 下 e 之 间 移 动 实 线 而 得 。 在 这 里 , e 是 一 个 预定 义 的 正 数 。 如 
将 此 图 与 图 7-27 进行 比较 ， 就 会 发 现 它 们 十 分 相像 ，s - 带 就 相当 于 支持 向 量 机 模型 的 边界 ， 
e - 带 代表 的 其 实 就 是 具有 最 大 边界 的 支持 向 量 机 的 分 类 模型 。 

通过 e- 带 概念 的 引入 ， 就 可 以 直接 将 SVC 的 算法 用 于 回归 分 析 。 图 6-23 (bo 就 形象 
地 说 明了 如 何 将 回归 问题 转换 为 支持 向 量 机 的 分 类 问题 。 对 于 在 训练 集中 须 回 归 数 据 的 每 一 
个 样本 x; [图 6-23 (D 中 的 “十 ”点 ]， 对 应 加 一 个 正 数 4， 使 其 成 为 一 个 新 的 样本 (x;， 
yi) 属于 1 类 ; 同 理 ， 亦 可 减 去 一 个 相同 的 正 数 &， 产 生 另 一 个 新 的 样本 Gr. y; 属 
于 一 1 类 。 重复 这 个 过 程 ，N 个 须 回归 的 样本 就 增加 了 一 倍 ， 并 被 分 为 2 类。 这 样 ， 回 归 
问题 就 转化 为 二 元 分 类 问题 。 因 此 ， 支 持 向 量 分 类 机 的 算法 就 可 以 直接 应 用 于 解决 回归 
问题 。 















































































































































se- 带 ;两 条 虚线 之 间 的 区 域 | 


y=w'xtbte 


Hay y), E. G y=w'xtb 























0 02 04 06 08 1 0 02 04 06 O8 1 
x x 
(a) (b) 
预定 义 的 s 单 变 量 函 数 s - 带 的 图 形 表 达 ; 
图 形 化 说 明 如 何 将 回归 问题 转换 成 为 分 类 问题 


此 外 ,se- 不 敏感 损失 函数 具有 以 下 的 分 段 形式 : 


|y 一 jxz) | 一 es， |»—fGOl|2me 
LLy— f(z), e]= 








0, 其 他 











也 就 是 说 ， 只 有 在 es- 带 外 的 数据 点 ， 如 在 图 6-23 (a) 中 的 (xs、，ys)， 将 造成 损失 。 
此 损失 函数 的 曲线 如 图 6-24 所 示 。 
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LFW) 





æ 0 te EON 


EAD c -不 敏感 损失 函数 曲线 


5. 线性 s-SVR 

为 解决 回归 问题 ， 科 尔 特 斯 等 曾 巧 妙 地 将 回归 问题 转化 为 分 类 问题 (参见 图 6-230. $8 
后 ,回归 函数 可 以 使 用 SVC 相同 的 算法 计算 。 处 理 回归 问题 的 第 一 步 是 将 其 转换 为 一 个 分 
类 问题 ， 如 图 6-23 (bo 所 示 。 给 定 的 训练 数据 DD 二 {C(x;，y;)), i 二 1，…，N 。 线 性 =- 
SVR 算法 旨 在 理论 上 解决 优化 问题 ， 可 以 写 在 下 面 的 e- 不 敏感 损失 项 : 
































1 C 
min: 二 | wl? +Z Ly,— f(x;), e) 
2 N 15] 


式 中 ，C 是 一 个 预定 义 的 正则 化 参数 。 上 述 最 小 化 问题 如 通过 松弛 变量 E “的 引入 ， 
可 以 进一步 表示 为 以 下 形式 


1 


N 
min; LG, b. £0 — 5 lw lE > e+e ) 
i=l 


subject to: Gw'z; 4-5) — y; Ge +é, i=1, 2, =, N 

y; — Gw'z; Fb) Se +é: i=1, 2, =, N 

ECO 20, i=1, 2, =, N 
借助 拉 格 朗 日 乘 子 法 (Lagrange multiplier method) (参见 本 书 第 三 章 ) 和 QP 算法 (参见 
文献 [80] 中 附录 B)， 可 得 到 以 下 回归 函数 : 


N 
f(x) = Dar ,—a Gia b, 
i=l 


N 
by —9 c Gf f Qi, p) Tir; ) FE 
i=1 


式 中 ,a 六 jy 和 a;,y 为 优化 的 拉 格 朗 日 乘 子 。 

6. 基于 核 函 数 的 s-SVR 

众所周知 ， 非 线性 才 是 在 现实 中 出 现 最 多 的 情况 。 因 此 ， 将 线性 e -SVR 拓展 至 非 线性 
回归 很 有 必要 。 通 过 引入 核 函 数 ， 输 入 第 一 个 非 线 性 映射 到 特征 空间 ， 并 导致 -SVR 变 得 
非常 灵活 ， 它 可 以 用 来 处 理化 学 中 复杂 的 非 线 性 回归 问题 。 作 为 最 后 决定 函数 的 导出 过 程 与 
线性 情况 非常 相似 ， 在 此 只 给 出 最 终 的 数学 形式 ， 即 
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N 
f= PY ,—a, KG; x) b; 
i-l 


N 
b; —y;— D la} ;—a;, KG; xj) e 
i=l 





式 中 ,a 六 jy 和 a;,y 为 优化 的 拉 格 朗 日 乘 子 。 应 该 指出 的 是 , v SVRG € [0. 1D 是 一 个 


原始 版 本 的 < 





v. e 值 则 由 算法 自动 调整 


SS p RS, 


此 数据 集 
收 率 时 的 沸点 
项 目 中 获得 。 





inj gc 7] 














-SVR 基于 核 函 数 的 修改 版 本 [80~8] 。 在 - SVR 中 , » RULES. ET 
。 这 里 v 是 支持 向 量 样本 总 数 的 比例 的 下 界 ， 而 同时 又 是 错误 的 分 








下 面 以 两 个 实际 例子 对 支持 向 量 回归 机 的 回归 效果 加 以 实际 说 明 。 
7. 近 红 外 数据 集 
[8 收集 近 红 外 光谱 的 246 个 柴油 样品 中 有 20 个 异常 值 。 响 应 值 是 在 50% 回 
(BP50)。 这 一 数据 是 从 美国 西南 研究 院 Ce es 个 由 美国 军 方 资助 
在 这 种 情况 下 ， 只 有 226 个 正常 样本 用 于 构建 模型 。 它 们 的 一 阶 差分 谱 如 图 6- 
25 所 示 。226 个 样本 随机 分 为 训练 集 和 测试 集 以 评价 支持 向 量 回归 机 (SVR) 模 型 的 效果 。 
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GE 226 个 上 业 油 样本 近 红 外 的 一 阶 微分 光谱 


ZR (BBXI PLS) 是 一 个 基本 的 和 应 用 最 广泛 的 化 学 计量 学 建 模 工 具 ， 它 可 应 























HFX 和 y 之 间 的 线性 关系 的 描述 ， 亦 可 在 一 定 程 度 上 抵抗 非 线性 。 在 此 ，PLS 作为 一 个 








参考 方法 ,来 与 SVR 进行 比较 ， 以 得 到 这 两 种 方法 的 主要 特点 及 其 区 别 。 在 偏 最 小 二 乘 回 





归 和 SVR 模型 


4 构建 之 前 ，X 和 y 都 被 调整 至 [0，1] 




















区 间 。 在 PLS 建 模 中 ， 采 用 10 折 交 又 


校 验 来 确定 主 成 分 的 数量 。 预 测 的 均 方 根 误差 (root mean squared error of prediction. RMSEP). 








WRMSEP- |I, 一 5 ， 与 主 成 分 数 的 关系 示 于 图 6.26。 从 图 可 以 看 出 ， 选 反 二 
i-l 
建 PLS 模型 是 有 道理 的 。 然 后 ， 一 个 独立 的 测试 集 被 用 来 评估 所 获得 模型 的 


个 主 成 分 来 构 
预测 能 
在 此 ， 采 























H v-SVR 来 构建 回归 模型 ，RBF NIZAR, RBF 核 函 数 中 的 y 参数 采用 了 
LIBSVM 软件 的 默认 值 。 在 训练 前 ，2 个 参数 ， 即 正则 化 因子 C AUR ELTES C Tels E 
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RMSEP 














PC 主 成 分 数 
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近 红 外 数据 中 RMSEP 值 对 10 折 交 叉 效 验 结果 作 图 








的 。 继 而 采用 全 局 最 优 的 遗传 算法 GA 来 优化 两 个 参数 C 和 ,， 最 终 所 得 

















和 0. 3292 (参见 表 6-60, 。 最 后 ， 利 用 训练 集 和 两 个 优化 的 参数 建立 SVR 模型 。 
EJ 近 红 外 与 模拟 数据 的 PLS 和 SVR 的 RMSEP 比较 结果 ? 
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数 分 别 为 59. 69 
































SIE 近 红 外 数据 模拟 数据 

训练 集 测试 集 训练 集 2 R? 训练 集 测试 集 训练 集 2 R? 
PLS 2. 3397 2. 943 3. 257 0. 9757 0. 0103 0. 0213 0. 0167 0. 9973 
SVMs 1. 8209 2.6621 3. 2417 0. 9835 0. 0073 0.0199 0.0186 0. 9979 
OSVR 两 个 参数 的 最 优 值 : 近 红 外 数据 ，C=59. 69, v=0. 3292; 模拟 数据 ，C 二 8.09、v 二 0. 9881, YE PLS fll SVR 





的 构建 过 程 中 ， 原 先 的 y 值 都 被 调整 至 [0, 1] 之 
© RMSEP 值 通 过 10 折 交 叉 效 验 所 得 。 











通过 PLS 和 SVR 获得 的 回归 结果 示 于 表 6-6 。 





间 ， 但 在 此 表 








P 进 行 比较 时 将 y 值 又 调整 回 原始 值 了 。 





相 比 于 PLS， 对 于 训练 集 和 测试 集 ， 


SVR 的 RMSEP 分 别 降低 了 22.1% 和 9.5%， 这 是 一 个 明显 的 改善 。 对 整个 数据 集 ，SVR 
和 PLS 的 相关 系数 平方 值 分 别 为 0.9835 和 0. 9737， 这 一 结果 也 进一步 说 明了 SVR 具有 和 较 


好 的 预测 能 力 。 两 种 方法 的 预测 值 与 实验 值 拟 合 结果 



































RÈ an A 6-27, 


从 图 6-27 可 容易 看 出 ， 


SVR 的 确 给 出 了 较 好 的 拟 合 和 预测 结果 。 由 此 可 以 得 出 结论 ，SVR 不 仅 有 能 力 描述 X HI y 
之 间 的 线性 关系 ， 还 可 以 把 握 现 实 世 界 中 存在 的 非 线性 数据 。 但 PLS 建 模 方 法 ， 因 其 本 质 








上 是 一 种 线性 建 模 方法 ， 这 使 得 它 不 可 能 
在 处 理光 谱 数 据 集 时 亦 有 其 局 限 性 。 首先 ， 因 SVR 是 非 线性 的 ， 这 使 
即 对 哪个 近 红 外 波 带 区 域 或 不 同 波 带 和 


























PLS, SVR 参数 优化 是 一 个 比较 耗 时 的 任务 ，i 
可 以 被 看 作 是 一 个 竞争 性 的 和 有 前 途 的 非 线性 近 红 外 光谱 数据 的 建 模 方法 。 


8. 紫外 模拟 数据 





依照 下 列 算 式 ， 得 到 一 个 模拟 紫外 的 四 组 分 的 混 





AP, S 是 一 个 由 四 个 化 合 物 组 成 30X4 的 纯 光 谱 矩 阵 。C 是 一 个 60X4 含 有 60 个 样 
品 的 浓度 矩阵 〈 人 参见 表 6-7)。 每 个 化 合 物 的 浓度 是 随机 产生 的 。 


X —SC 


这 有 可 能 会 


X =X +0.5X?— X? 


一 Xp 十 


e 








合体 系 [86—90] : 








得 研究 结果 难以 解释 ， 
结合 模式 是 否 有 意义 的 问题 无 法 回答 ; 此 外 ， 相 比 
会 限制 其 应 用 。 但 总 而 言 之 ，SVR 





收集 了 60 个 混合 





很 好 地 解释 数据 的 非 线 性 部 分 。 应 当 指 出 ，SVR 








物 的 光 
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预测 值 
N 
è 
预测 值 

















o I L I L E. L L L L 
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近 红 外 数据 的 预测 值 对 实验 值 作 图 (a) PLS; (b) SVMs 

“十 ”代表 训练 集 ;“4” 代 表 测 试 集 








谱 。 纯 光谱 和 混合 光谱 如 图 6-28 所 示 。 考 虑 非 线 性 和 不 可 避免 的 现实 情况 下 的 噪声 ， 非 线 
性 项 和 白 噪 声 (co 二 0.004) 添加 到 XX 的 第 四 化 合 物 的 浓度 作为 响应 值 y， 随 机 选择 40 个 样 
本 作为 训练 集 ， 剩 下 的 20 个 样本 作为 测试 集 ( 用 星 号 标注 的 ， 参 见 表 6-7) 。 
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模拟 数据 中 4 个 纯 物质 的 光谱 (a) 和 模拟 数据 中 
60 个 样本 的 光谱 (b), ， 光 谱 中 加 入 了 白 噪 声 (c=0. 004) 


模拟 数据 中 四 个 组 分 的 浓度 值 

















编号 C1 C2 C3 C4 
J 0. 5657 0. 9214 0. 0225 0. 4422 
2 0. 7400 0. 9078 0. 2609 0. 4409 
3 0. 6915 0. 6683 0.7931 0. 4814 
4 0. 2965 0.0789 0.7459 0.4528 
5 0.0525 0.8934 0.2700 0.5769 
6 0.4727 0.9601 0.0599 0.5075 
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编号 €, C2 C3 C4 

7 0.2407 .8774 0.9091 0.4346 

8 0.4549 .8809 0.0179 0.8595 

9 0.6501 .7897 0.6694 0.6157 
10 0.5109 .1756 0.4735 0.1220 
1l 0.4391 .6362 0.8745 0.6751 
12 0.0208 4424 0.7048 0.5099 
13 0.9753 1074 0.4777 0.7757 
14 0.4504 1314 0.3505 0.3542 
15 0.4017 .2685 0.0966 0.9114 
16 0.5835 4053 0.9836 0.1370 
17 0.1308 5498 0.3813 0.2273 
18 0.4500 .7789 0.2542 0.6168 
19 0.7422 2594 0.7904 0.8245 
20 0.0421 .4651 0.4990 0.6553 
al 0.1779 1718 0.6382 0.8919 
22 0.3127 .2658 0.0210 0.8143 
23 0.7659 .7430 0.1497 0.7531 
24 0.4678 6592 0.6211 0.1433 
2b 0.5578 .0766 0.1792 0.5776 
26 0.1663 .7410 0.7674 0.9662 
27 0.7053 .3715 0.5696 0.5696 
28 0.5431 .2417 0.7763 0.5161 
29 0.6212 .8690 0.0093 0.7661 
30 0.0744 2327 0.1080 0.9115 
3l 0.5306 .6271 0.3381 0.8873 
32 0.8746 .6413 0.0518 0.8824 
33 0.0979 5208 0.3760 0.6813 
34 0.2903 .8737 0.9073 0.2327 
35 0.9136 .1651 0.4943 0.7467 
36 0.0833 5848 0.2900 0.5901 
37 0.1047 5334 0.0262 0.4668 
38 0.0548 5026 0.5671 0.0291 
39 0.4734 6079 0.9063 0.4022 
40 0.5176 1942 0.4162 0.0717 
41* 0.3636 1690 0.7846 0.4263 
42* 0.1064 .0335 0.7697 0.3478 
43* 0.5245 .6052 0.9714 0.0265 
44* 0.9423 1422 0.1787 0.4900 
45.* 0.3766 .2595 0.8397 0.0284 
46 * 0.4216 .7994 0.7938 0.6937 
47* 0.3080 .9669 0.0584 0.1227 


| 348 分 析 化 学 手册 “10 ”化 学 计量 学 





qk 

















编号 €1 €? C3 C4 

48 * 0.2388 0.8193 0.3193 0.8909 
49* 0.4750 0.0428 0.1750 0.9163 
50* 0.9378 0.6055 0.0385 0.3354 
gI” 0.0622 0.9020 0.1227 0.8151 
52* 0.0223 0.1799 0.1649 0.1221 
53* 0.5607 0.4189 0.7959 0.7982 
54* 0.4692 0.6208 0.0051 0.3348 
55” 0.1742 0.5462 0.2037 0.8420 
56 0.9613 0.0680 0.8002 0.1954 
57* 0.6535 0.8603 0.5352 0.2860 
58* 0.5511 0.9023 0.7720 0.7245 
5g* 0.8989 0.5951 0.5034 0.3346 
60* 0.3936 0.0260 0.5781 0.0012 











E: x 表示 用 于 测试 集 的 样本 。 


为 了 进一步 证 实 上 述 结论 ， 特 以 上 述 非 线 性 的 紫外 模拟 数据 加 以 进一步 验证 。 在 建立 回 
HRZ A, EREE X My 的 浓度 都 缩放 到 [0. 1] 区 间 。 再 次 使 用 PLS 作为 参考 方法 
来 进行 比较 分 析 。10 折 交 叉 验 证 也 被 用 来 选择 PC 主 成 分 数 〈 见 图 6-29)。 从 图 6-29 可 以 观 
察 到 ，RMSEP 值 在 10 个 主 成 分 选择 后 开始 增加 ， 所 以 采用 10 个 主 成 分 来 建立 PLS 模型 。 
SVR 模型 采用 RBF 核 函 数 来 建立 。RBF 核 函 数 参数 7 也 同样 设置 为 LIBSVM 软件 中 的 默 
认 值 。 然 后 ， 采 用 遗传 算法 全 局 优化 方法 来 对 两 个 关键 参数 C mL 进行 优化 。 通 过 优化 参 
数 ，SVR 模型 使 用 训练 集 计 算 获 得 。 这 两 种 方法 获得 的 结果 示 于 表 6-6。 从 表 6-6 可 以 看 
出 ，SVR 对 训练 和 测试 集 的 预测 误差 均 低 于 PLS。 预 测 浓度 和 实验 浓度 的 关系 也 显示 于 图 
6-30。 结 果 表 明 ，SVR 方法 所 得 预测 浓度 更 准确 ， 其 原因 可 能 是 基于 核 函 数 的 SVR 具有 处 
理 非 线 性 数据 的 能 力 。 研 究 结 果 表 明 ，SVR 的 确 是 对 一 些 非 线 性 数据 进行 回归 分 析 的 一 个 
很 好 的 选择 。 因 此 ， 可 以 得 出 结论 ，SVR 在 捕捉 潜在 的 数据 结构 和 未 知 的 非 线 性 建 模 方 面 
更 强大 。 从 这 一 点 来 看 ，SVR 似乎 是 固有 的 非 线 性 模拟 真实 世界 的 数据 的 一 种 有 效 方法 。 

在 此 值得 指出 的 是 ， 有 关 使 用 的 支持 向 量 机 的 软件 [8 及 遗传 算法 (GA Toolbox 
v1. 2)[89 都 可 免费 得 到 ， 特 此 说 明 。 
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模拟 紫外 非 线性 数据 的 预测 值 对 实验 值 作 图 
(a) PLS; (b) SVMs 
*e" 代表 训练 集 ;“@” 代 表 测 试 集 





六 、 病 态 体系 和 有 偏 估计 方法 


在 由 式 y=cix Hex Hee Fc, Xn He 所 表述 的 直接 多 元 校正 的 模型 中 ，x; (i 二 1， 
2，…，7) 为 纯 物 质 的 量 测 矢量 (或 为 纯 光 谱 ， 或 为 其 他 纯 物 质谱 )， 注意 到 在 此 模型 中 还 
隐 含 着 一 个 假设 ， 即 不 同 的 化 学 物质 的 量 测 谱 是 不 同 的 ， 用 数学 语言 来 说 ， 就 是 纯 物 质 的 量 
测 纯 光 谱 x， G-—1. 2. --. n) 是 线性 不 相关 的 ， 即 校正 矩阵 X 必须 是 一 个 满 秩 矩 阵 。 可 
是 ， 在 分 析 化 学 的 实际 情况 中 往往 存在 着 这 样 的 情况 ， 在 某 些 光谱 (如 最 常用 的 紫外 可 见 
谱 ) 的 量 测 中 ， 一 些 不 同 的 化 学 物质 却 具 有 很 相似 的 光谱 ， 如 某 些 具有 相同 共 恩 体系 结构 的 
紫外 可 见 谱 和 某 些 异 构 体 的 质谱 ,虽然 它们 的 波谱 多 少 有 些 不 同 ， 但 却 非常 相似 ， 这 就 会 使 
校正 矩阵 站 接近 亏 秩 ， 从 而 使 满 秩 条 件 很 难保 证 ， 或 者 说 纯 物 质谱 之 间 的 差别 已 与 量 测 误 
差 相 近 ， 这 样 的 情况 在 数学 上 称 之 为 病态 ， 统 计 学 中 称 之 为 共 线 性 (collinearity)。 由 于 校 
EEPE X 接近 亏 秩 ， 亦 即 存在 着 共 线 性 关系 ， 在 常用 最 小 二 乘 的 求 送 时 将 带 来 很 大 误差 ， 
从 而 使 由 此 估计 出 来 的 相对 浓度 c; G=1, 2, 0, n) 不 可 靠 。 为 解决 由 存在 着 共 线 性 而 
致 矩阵 X 接近 亏 秩 而 带 来 的 问题 ， 近 年 来 统计 学 家 们 提出 了 所 谓 的 有 偏 估 计 方 法 ， 其 中 最 
著名 的 是 岭 回 归 方 法 。 在 本 节 中 ， 将 对 岭 回 归 方 法 做 出 介绍 ， 并 讨论 岭 回 归 可 在 什么 程度 上 
改善 病态 体系 的 相对 浓度 估计 。 

与 最 小 二 乘 估 计 e= OX X07 Xy) 不 同 ， 岭 回归 是 一 种 有 偏 统计 回归 算法 ， 其 基本 公式 
















































































cC(R) 一 (XIX - RID! X'y (6-25) 


xp. x 的 意义 同 前 ,为 直接 校正 矩阵 ; y 为 混合 物 的 量 测 矢量 ; c OO 为 混合 物 的 浓度 
估计 矢量 ; 工 为 (n Xn) 阶 单位 矩阵 ; k 为 可 调 参数 。 由 于 & 的 引入 ， 岭 回归 失去 了 最 小 二 
乘 回 归 所 具有 的 无 偏 估计 的 特点 ， 故 称 为 有 偏 估计 。 

岭 回归 与 经 典 最 小 二 乘 回 归 本 质 的 不 同 点 在 于 它 不 是 以 (y 一 y)'(y 一 y) ， 即 残 差 平方 
和 趋 于 最 小 为 其 目标 ， 而 是 使 (ec 一 ce)'(e 一 ce) ， 即 估计 参数 趋 于 最 小 ， 这 正 是 分 析 工 作 的 目 
的 。 对 于 最 小 二 乘 估计 参数 的 估计 准确 度 ， 可 由 估计 值 均 方差 标准 (MSE) 给 出 : 
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MSE(c) -—El(ce —e)(€ —) -Etle—cl?) 











AF, E( } 表示 数学 期 望 ， 从 MSE 的 推导 ， 即 





MSE —o? tr(X'X) ! —o?tr(Q'X'XQ) ! =0? > 1/A; 





可 知 , MSE =o? 3l. 其 中 02 为 量 测 误差 的 方差 , 4 ;为 OXUO 的 第 i 个 特征 值 。 这 一 关 
F 


系 说 明 ， 最 小 二 乘 估计 的 均 方 差 由 和 决定， 特别 是 由 最 小 的 特征 值 所 决定 。 当 组 分 纯 光 谱 
《或 称 纯 物 质量 测 谱 ) 的 相似 程度 〈 即 重合 程度 ) 很 严重 ， 即 校正 矩阵 中 存在 共 线 性 关系 时 ， 
校正 矩阵 协 差 阵 的 特征 值 的 最 小 值 就 会 很 小 ， 此 时 体系 处 于 “病态 ”情况 ， 巾 最 小 二 乘 估计 


出 的 e 的 均 方差 就 会 很 大 。 对 于 岭 回 归 ， 有 


























MsEC =>) oi 





m 





MA EGE T9 7; 25 RN. ER EE SE S. RER, uDHIGdE SUA. R——0. fu 
cC) 的 均 方 差 比 c 的 小 ， 即 
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对 于 值 的 确定 ， 一 般 可 采用 岭 迹 图 法 ， 即 根据 式 (6-200. Mek) 对 直接 作 图 。 
文献 [90] 给 出 了 一 个 简易 计算 方法 ， 有 兴趣 的 读者 可 以 参阅 。 但 对 于 有 MatLab 软件 的 读 
者 ， 直 接 用 式 6-25) 计算 也 很 容易 。 

为 验证 此 法 的 功效 ， 用 它 对 三 个 不 同 的 分 析 体 系 进行 了 分 析 ， 并 与 经 典 最 小 二 乘 回归 及 
E o n c aie a 
分 析 体 系 为 : @ 间 甲 酚 、 对 甲 酚 、 邻 甲 酚 三 元 混合 体系 ; OR., WP, E, SE 
四 元 混合 体系 ; @ 茶 酚 、 间 甲 酚 、 对 甲 酚 、 邻 甲 酚 、 水 杨 酸 五 元 混合 体系 ， 它 们 的 标准 纯 物 
质 光 谱 示 于 图 6-31。 从 图 可 以 看 到 ， 它 们 的 重 县 和 相似 程度 是 严重 的 ， 体 系 存在 共 线 性 关 
系 ， 为 病态 分 析 体 系 ， 用 常规 最 小 二 乘 回 归 和 Kalman 滤波 方法 均 难 取得 准确 估计 结果 。 表 
6-8 列 出 了 岭 回归 、 常 规 最 小 二 乘 回 归 和 Kalman 滤波 方法 的 比较 结果 ， 从 表 可 以 看 出 ， 岭 
回归 的 分 析 结 果 明 显 优 于 最 小 二 乘 回 归 和 Kalman 滤波 方法 。 当 体系 的 “ 病态 ”情况 更 严重 
时 (五 组 分 混合 体系 )， 最 小 二 乘 回归 和 Kalman 滤波 方法 丝 出 现 “ 负 ”的 估计 浓度 ， 这 说 
明 对 于 严重 病态 体系 ， 上 述 两 种 方法 所 得 结果 的 可 靠 性 很 差 。 

从 3 个 混合 体系 中 各 取 一 岭 迹 图 作为 实例 示 于 图 6-32。 从 图 可 以 看 出 ， 当 & 从 0 开始 变 
大 时 ， 各 个 浓度 估计 值 就 产生 显著 变化 ， 这 等 价 于 只 须 在 校正 矩阵 的 元 素 上 施加 很 小 的 微 
扰 ， 就 使 最 小 二 乘 佑 计 值 发 生 显著 变化 〈 当 &=0 时 ， 岭 回归 就 退化 成 最 小 二 乘 回 归 )， 说 明 
病态 体系 的 最 小 二 乘 估计 很 不 稳定 ;， 随 着 & 值 的 增 大 ， 上 岭 回 归 浓 度 估计 值 很 快 趋 于 平稳 ， 这 
时 微 扰 对 解 几 乎 不 产生 最 v. DUNAR PIDIE EE BEEE 的 。 在 此 值得 指出 的 是 ， 在 
少数 情况 下 岭 迹 图 并 不 完全 趋 于 平稳 ， 此 时 & 值 较 难 确定 ， 这 说 明 对 此 分 析 病 态 体系 ， 岭 回 
归 亦 难 给 出 满意 结果 ， 此 时 ， | v uL 
成 分 回归 、 偏 最 小 二 乘 等 ) 继续 证 实 所 佑 浓度 的 可 靠 程度 。 
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三 个 多 组 分 体系 的 岭 迹 图 
a 一 对 甲 酚 ，b 一 间 甲 酚 ，c 一 邻 甲 酚 ，d 一 葵 酚 ，e 一 水 杨 酸 
各 组 分 的 实际 浓度 : (a) a—4pg/mls b—3pg/ml: c—2pg/ml; (b) a—l10pg/ml; 
b—9pug/ml; c 一 7yg/ml; d 一 6yg/ml; (© y l0ug/ml; (d 7g 5pug/ml 
































不 同方 法 分 析 结 果 比 较 








体系 浓度 /(ug/ml) | 最 小 二 乘 回 归 | MRPE/% | 卡尔 曼 滤 波 法 | MRPE/96 岭 回归 MRPE / *6 
a:10.0 10.5 10.2 10.1 
三 元 体系 b:10.0 8.08 13.2 8.85 7. 25 9. 72 2. 29 


c:10.0 11.1 10.5 9.74 
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体系 浓度 /(kg/ml) | 最 小 二 乘 回归 | MRPE/% | 卡尔 曼 滤 波 法 | MRPE/% 岭 回归 | MRPE/% 
a:10. 0 10. 8 10. 9 10. 6 
b:5.0 4. 86 7. 32 4. 93 7.84 4. 99 7.12 
c:8. 0 7.45 7.37 7.21 
a:4.0 4. 44 4. 92 4. 25 
三 元 体系 :2.0 1.29 20.3 2.10 18.3 1.85 5.67 
c3. 0 3. 68 2. 66 2.91 
a:10.0 .0 0.0 10.6 
8.0 8. 23 9. 31 5. 53 21.4 7.40 5.19 
c:10.0 8. 90 2.5 9. 82 
a:10.0 11.6 9. 69 10.0 
b:10. 0 7.71 4. 21 9. 84 
c; 10.0 6.25 "drm 11. 6 ids 9.55 id 
d:10. 0 4.5 4.0 9.81 
a:10.0 2:7 2.7 9. 71 
b:10.0 8. 42 8. 22 11.0 
c:10.0 46 Bed 5. 50 d 9. 23 00a 
B d:10.0 14.0 14. 2 10.0 
pp ES 
a:10. 0 1.6 ÉZ 10.7 
b:6.0 4. 33 3. 32 6. 25 
c:9. 0 7.88 198 8. 26 med 8. 62 iid 
d:7.0 8. 87 9. 59 6. 24 
a:9.0 11.4 11.5 10.4 
b:9.0 6. 90 2.71 8. 35 
"T Bobo 27.8 -— 50. 26 -— 8. 70 
d;10.0 13.0 16.0 9. 99 
a:10. 0 13.9 12.0 8. 59 
b:10.0 3.11 3-12 9. 06 
c:10.0 3. 84 74.9 4. 60 62. 9 10. 7 8. 29 
d:10.0 24.2 20.8 10.1 
e:10.0 8.53 9. 21 9. 78 
a:5.0 5.97 5. 37 4. 44 
b:5.0 3.24 3. 30 4. 67 
c:5.0 2. 34 46. 2 3. 69 32. 2 5. 47 7.21 
d:5.0 8. 93 7. 86 5. 09 
FARZ e:5.0 4.58 4.77 i 
a:3.0 4. 94 2. 74 2.57 
b:7.0 4. 56 4. 87 5. 66 
c3. 0 1.50 49. 1 3. 40 20.7 3. 74 13.0 
d:8. 0 13.9 9. 89 8. 87 
e:8.0 7.28 7. 98 8.01 
a:15.0 17.4 16.5 14. 2 
b:5.0 1.07 1.08 2. 86 
c:0. 0 —6.20 56.5 —4. 16 57.1 0. 08 14.5 
d;10.0 18.8 17.2 11.7 
e:9. 0 8.11 8. 39 9. 12 
iE: a 一 对 甲 酚 ; b 一 邻 甲 酚 ; c 一 间 甲 酚 ，d 一 茶 酚 ;， e 一 水 杨 酸 ; MRPE-—(21Cc; —0;,)?/ 32102)! ? X 100, 
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七 、 多 元 校正 的 分 析 化 学 品质 因数 和 可 靠 性 分 析 


分 析 方 法 的 品质 因数 ， 如 灵敏 度 、 选 择 性 、 检 测 下 限 等 ， 在 分 析 化 学 中 是 非常 重要 的 概 
念 ， 借 此 可 对 分 析 结 果 的 可 靠 性 和 适应 性 给 出 合理 估价 ， 亦 可 作为 选择 方法 和 优化 实验 条 件 
的 目标 函数 。 所 以 ， 将 传统 标量 校正 中 常用 的 有 关 分 析 方 法 的 品质 因数 拓 广 至 多 元 校正 就 8 
有 十 分 重要 的 意义 。 多 元 校正 实质 是 用 矢量 分 析 (多 变量 ) 百代 标量 ( 单 变量 ) 分 析 ， 是 传 
统 标量 分 析 的 拓 广 。 从 前 儿 节 的 讨论 可 以 看 出 ， 经 此 拓 广 ， 可 获得 很 多 传统 标量 分 析 所 不 能 
得 到 的 重要 信息 。 值得 提出 的 是 ， 多 元 校正 同样 可 给 出 传统 标量 校正 中 常用 的 有 关 分 析 方法 
的 品质 因数 595 。 在 讨论 多 元 校正 的 有 关 分 析 方 法 的 品质 因数 之 前 ， 有 必要 先 对 传统 标量 校 
正中 常用 的 有 关 分 析 方 法 的 品质 因数 进行 简单 回顾 。 

传统 标量 校正 的 模型 一 般 可 由 下 式 给 出 





m 了 





























y =cx +e (6-26) 


RP, y WEWE; c 为 浓度 ; xz 为 仪器 的 灵敏 度 [92] ， 或 称 为 响应 系数 ;，e 为 量 测 误 
差 ， 一 般 假 设 为 零 均 等 方差 的 正 态 分 布 随机 变量 ， 根 据 IUPAC 建议 ， 检 测 下 限 由 下 式 
定义 [93] 


c —3o/x 








AF, o 为 量 测 误差 的 标准 差 。 选 择 性 一 般 是 相对 于 共存 干扰 而 言 ， 对 一 含有 ?7 种 被 测 
物种 体系 ， 如 某 物种 ; 的 灵敏 度 x; 为 较 大 正 数 ， 其 余 zj Gj Sl, 2. m. i=l, dcl. 
n) 均等 于 零 或 为 接近 噪声 的 响应 ， 则 称 该 分 析 方 法 对 物种 上 具有 完全 选择 性 ， 反 之 ， 该 法 
对 物种 i 的 选择 性 差 。 

对 于 多 元 校正 方法 ， 上 述 品质 因数 亦 可 导出 ， 只 是 表示 方法 由 矢量 取代 了 标 引 
正 的 矢量 表示 模型 可 由 下 式 给 出 




















in 


多 元 校 











y —có4X, coxa dc c c,xs te 


AF, y 为 混合 物 在 m 个 不 同 分 析 通 道 〈 如 光谱 则 为 不 同 波长 或 波 数 ) 上 所 测 值 组 成 
的 矢量 ; x* ;为 物种 ; 在 相应 分 析 通 道 测 得 的 标准 物 量 测 矢量 ; c; 为 物种 i 在 混合 物 中 的 浓度 ; 
e 为 一 等 方差 正 态 分 布 的 误差 矢量 。 对 上 式 ， 可 用 构造 正 交 投影 矩阵 方法 进行 解析 ， 先 按 下 
式 构 成 正 交 投影 矩阵 P; 























Pi — (Lux —X;X]1) 


IWP, X; = (x1; Xs 3 Xa Xipe Ut. Xa); RE x AREER, X; 为 其 广 
Xi, XEK Moore-Penrose 35. ÆI X; — (XIX; ? X! (有 关 广 义 道 和 投影 阵 可 参见 第 十 一 
章 的 相应 部 分 ); Pi 为 一 对 称 窜 等 矩阵 ， 故 有 投影 阵 之 称 。 将 投影 阵 P 了 ;作用 于 混合 物 量 测 
矢量 之 上 ， E SRREZ ZHE, WmpEI;G—1.2.-7.i—1) i 十 1,，…， 
n) 的 影响 扣除 ， 














y; —Piy —P;(cixq Feix Hean te) =c ce 
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这 是 因为 投影 阵 P; 具有 一 优良 特性 


Pix; = CE mxm a X:X} )x; =x; E X;X1x; 





—X; Xj 一 0 G =l; s ub 1s il. iE) n) 


E 


TEWELRIH T P7 X EB] X;X; X; Xi BTE, 
为 对 前 式 求解 c;， 只 须 对 方程 两 边 左 乘 x;'， 可 得 


xx .|y; |cosc0) 





Ayi 二 cjx? tež yf 5x 只 相差 一 误差 拓 量 ,， 故 二 者 之 间 的 夹 角 9 守 0"， 即 
cos(0) 1， 于 是 有 





Xi yi F | x? | x ly? |l A ER X, Txj'e* 


ees] x? dx? | +e* 
对 上 式 两 边 同 时 除 以 外 xz” | 得 


ly? | 5c; x? | +e*/l xš | 





~c; xz | +e*”* (6-27) 








将 上 式 与 式 06-200 比较 ， 二 者 有 完全 一 致 的 表达 形式 ， 唯 上 式 用 矢量 模 奉 代 了 式 (6- 
26) 中 的 单 变量 信号 

1. 灵敏 度 

AX (6-27) 可 知 ，| x? | 与 式 (6-260 中 的 x 相对 应 ， 因 此 x》 | 可 称 为 多 元 校正 
中 对 物种 i 的 灵敏 度 ， 它 表示 在 单位 浓度 下 多 组 分 共存 体系 中 物种 i 的 纯 矢 量 分 析 信 号 大 
小 ， 即 扣除 了 共存 组 分 影响 后 的 物种 i 的 纯 分 析 信 号 ， 其 量 纲 与 式 (6-26) 完全 一 样 。 

2. 选择 性 

对 于 多 组 分 共存 体系 ， 原 由 式 (6-26) 示 出 的 标量 校正 模型 应 变 为 


























E ^ | x ^ E row: ses s | 
YCITX1 T C227 CCnn TE 





此 时 仅 有 一 个 方程 ， 却 存在 n ARARE c, G—1. 2. c. n), 除非 有 “完全 选择 性 ” 
( 见 上 文 ) ， 和 否则 无 法 求解 。 而 由 式 (6-270 示 出 的 矢量 校正 模型 无 此 局 限 ， 仍 可 得 标量 式 
R5 05505 5 054 015 E mE 
征 。 在 多 元 校正 的 模型 中 ， 可 供 直接 分 析 用 的 并 非 标准 量 测 谱 x*; 本 身 ， 而 是 经 投影 矩阵 P: 
作用 后 ， 与 其 余 共 存 物 标准 量 测 谱 的 正 交 部 分 一 一 投影 矢量 xi Apps e Sos 
投影 后 得 x”， 其 模 缩 小 很 多 ， 即 | x? 1/0 x; ll 很 小 。 此 时 用 式 (6-27) 估计 浓度 ， 

e* * 的 存在 而 带 来 较 大 误差 。 这 是 由 于 共存 物种 标准 量 测 谱 之 间 严 重重 从 所 致 ， ap 
“病态 ”分 析 体 系 ， 如 仍 采 用 最 小 二 乘 回归 、Kalman 滤波 等 一 般 多 元 校正 方法 ， 结 果 将 很 
不 可 靠 p0J 。 因 此 ，| xz> | /] x; | 可 视 为 组 分 ;与 其 他 共存 组 分 的 标准 量 测 谱 之 间 重 琶 程 
度 的 度量 。Lorber[50 建议 将 其 作为 组 分 :的 选择 性 指标 。 然 而 ， 笔 者 认为 该 指标 只 定性 地 
反映 了 组 分 量 测 谱 的 重 受 趋势 ， 且 其 可 在 (0，1) 区 间 变 动 ， 对 确定 某 组 分 是 否 具有 定量 分 
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析 所 需 选 择 性 未 给 出 具体 指标 ， 很 难 应 用 于 实际 。 从 式 (6-27) 可 知 ， 多 元 校正 分 析 的 单 组 
分 模型 ， 除 该 被 测 组 分 的 贡献 外 只 与 e “有 关 。 也 就 是 说 ， 对 于 多 元 校正 模型 ， 其 选择 性 
可 参照 单 组 分 模型 的 定量 测定 限 来 考虑 ， 不 对 必须 用 投影 矢量 x” 的 模 ， 即 所 谓 标 准 谱 的 纯 
分 析 信 号 ex; | 来 考虑 ， 实 因 标 准 谱 的 纯 分 析 信 号 x? | 已 经 扣除 了 共存 诸 组 分 的 共存 影 
响 。 根 据 Currie[9 提 出 的 “定量 测定 限 ”的 定义 ， 当 信 噪 比 大 于 10 时 ， 该 组 分 的 分 析 信 和 号 
能 用 于 可 靠 定量 测定 。 综 合 上 述 讨论 ， 建 议 将 多 元 校正 的 组 分 选择 性 定义 如 下 : 




















SEL; = lx? l/e** = lx? l/GlxilomC€Hx? l/Wx; l»/r (6-28) 

















值得 提出 的 是 ， 由 上 式 定义 的 多 元 校正 模型 的 选择 性 指标 ， 表 面 上 看 是 一 个 标准 谱 的 信 
品 比 ， 但 实际 上 它 与 一 般 信 噪 比 不 同 。 不 同 之 处 在 于 它 是 建立 在 由 式 〈6-27) 定义 的 单 组 分 
模型 之 上 的 。 这 是 一 个 经 数学 变换 扣除 了 共存 诸 组 分 的 影响 后 的 单 组 分 模型 ， 所 以 实际 上 反 
映 了 共存 诸 组 分 对 组 分 i 的 定量 测定 的 影响 。 另 外 ， 式 (6-28) 中 r 为 仪器 量 测 的 相对 误 
差 ， 这 是 考虑 到 分 析 工 作者 一 般 都 知道 一 些 仪器 的 量 测 相对 误差 ， 将 其 引入 可 方便 选择 性 指 
标的 运算 。 对 于 紫外 可 见 光 谱 ， 仪 器 的 标准 谱 的 量 测 相对 误差 一 般 可 设 为 2%[95]。 

根据 Currie 标准 ， 当 SEL;Z—10 时 ， 该 物种 能 由 一 般 多 元 校正 方法 可 靠 定 量 测 定 ， 具 有 
同时 测定 所 需 的 选择 性 ; 当 3-CSEL; <10 时 ， 因 为 是 定性 纯度 保证 范围 ， 其 选择 性 只 满足 
半 定 量 测定 要 求 ; 当 SEL; 达 3 时 , 说 明 该 物种 经 扣除 共存 组 分 影响 后 的 纯 分 析 信 号 与 误差 
相差 不 到 三 倍 ， 有 被 误差 淹没 的 可 能 ， 此 时 该 组 分 的 选择 性 不 能 满足 定量 分 析 要 求 。 注 意 
到 ， 由 式 (6-280 定义 的 组 分 选择 性 可 方便 地 在 解析 前 对 待 分 析 混 合 试 样 进行 选择 性 估价 ， 
只 须 用 投影 阵 P; 对 x; 进 行 投影 运算 而 得 到 x; ， 由 此 可 计算 出 xi /中 x; 1， 继而 与 仪器 
的 量 测 相 对 误差 比较 ， 即 可 知 该 体系 能 否 准确 定量 了 。 

3. 检测 下 限 

对 应 式 (6-26)， 可 定义 多 元 校正 的 组 分 检测 下 限 




































































LOD; —3c/SEN; —3c/ | x; || 


AF, o 为 量 测 误差 标准 差 ， 建 议 使 用 多 个 在 相同 条 件 所 得 估计 值 的 均值 较为 可 靠 。 如 
5 已 知 ， 则 用 实际 经 验 估计 的 更 为 合适 。 

4. 准确 度 

根据 误差 传递 理论 ， 结 果 的 相对 误差 (Ac;,iwow/c;) 来 自 两 个 方面 ， 即 混合 物 量 测 相对 
误差 (Ac;,,/c;) 和 标准 物 量 测 误差 (Aci,x/cj)， 可 由 下 式 表示 出 


























At; total/Ci — Aci, y/cit Aes, xf e (6-29) 


式 中 ,ci.x 为 组 分 i 标准 量 测 谱 所 含 浓度 。 在 多 组 分 共存 时 ， 在 混合 物 量 测 中 对 于 组 分 
i 的 信 噪 比 应 为 混合 量 测 谱 中 的 该 组 分 的 纯 分 析 信号 | ?” | 与 噪声 标准 差 o 的 比值 。 从 式 
zci zy Me Mox? | +e* 可 知 











ci 5cxl y Clef e xš |) 
RAR I y doc; lE x? ll 二 e** 可 得 


ly? | Cri yi /Nx d dx?dolx?d-cet* 
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oxy /| xy | 
即 
ly»? /c=xi'y? /C(x; de) 


Aci,y/ci 与 在 混合 物 量 测 中 对 于 组 分 i 的 信 噪 比 呈 倒数 关系 ， 则 有 





Ac, sy /er oM x? Ml /G y =o læ? | yl /Cyl eyo 


=[ lx | iy æy] ly D =; ,Co/ Ny) 


式 中 ，xk;,, 称 为 混合 物 量 测 谱 中 物种 i 的 误差 传递 数 。 对 于 标准 物 量 测 谱 物 种 i 的 误差 
传递 数 可 完全 仿 此 进行 ， 只 须 将 y; 换 成 x; B 


Ac;, x/c; =0 lx? E ly l/EWy ll œ xo] 


—[lx? Wl l yll/G£'x?»]G/l y ll? =r; x G/ ll y ll) 





于 是 式 (6-29) 可 写成 


Aci, total /Ci = Aci, m c Aci, x /c; — Ki, y Ca/ | y | Es x G/ I y [> 


— Gc, y H, x) Co/ ly )=ri, walo/ ll y D) 





在 此 只 假设 了 标准 量 测 谱 与 混合 物 量 测 谱 的 量 测 误差 标准 差 o 相等 。ki,oml 称 为 组 分 i 
的 误差 传递 数 ， 其 大 小 将 说 明 分 析 结 果 的 误差 大 小 。 


第 四 节 ”灰色 分 析 体 系 的 多 元 校正 方法 


灰色 分 析 体 系 的 基本 特征 为 : 已 知 待 测 物 存在 于 待 分 析 的 样本 中 ， 但 是 否 存在 别 的 未 知 
干扰 却 不 清楚 ， 分 析 目 的 是 在 未 知 干扰 存在 下 ， 直 接 对 感 兴 趣 的 待 测 物 进行 定量 分 析 。 此 类 
分 析 体 系 可 以 说 是 分 析 化 学 家 碰 到 得 最 多 的 一 类 体系 ， 因 其 定性 组 成 只 部 分 已 知 ， 介 于 白色 
与 黑色 分 析 体 系 之 间 ， 故 将 其 称 为 灰色 分 析 体 系 。 

灰色 分 析 体 系 的 校正 算法 将 以 矢量 校正 方法 和 和 珑 阵 校 正方 法 为 线索 逐步 展开 。 从 理论 上 
说 ， 如 没有 特殊 条 件 ， 基 于 矢量 校正 的 方法 ， 如 本 书 将 要 介绍 的 迭代 目标 转换 因子 分 析 法 
(ITTFA)、 自 适应 Kalman 滤波 法 (AKF)、 局 部 曲线 拟 合 法 (LCF) 等 ， 一 般 只 能 给 出 可 
能 解 ， 虽 其 实用 性 受到 一 定 限制 ， 但 对 一 些 情况 仍 有 一 定 人 参考 价值 ， 而 且 ， 因 其 对 以 后 的 进 
一 步 研究 具有 启发 作用 ， 故 本 书 仍 给 出 了 详细 的 介绍 。 和 矩阵 校正 方法 是 分 析 化 学 计量 学 研究 
的 难点 和 热点 ， 近 年 来 取得 了 较 大 成 果 。 其 中 著名 的 有 广义 秩 消 失 因 子 分 析 法 (GRAFA)、 
残 差 双 线 性 分 解法 RBL) 和 约束 背景 双 线 性 分 解法 (CBBL)。 从 纯 数 学 的 角度 看 ， 这 些 方 
法 一 般 丝 可 给 出 有 物理 意义 的 唯一 解 ， 但 在 实际 分 析 化 学 的 应 用 中 ， 还 存在 着 一 些 具体 困难 
值得 进一步 研究 。 


一 、 矢 量 校正 方法 
矢量 校正 方法 是 用 于 矢量 类 型 数据 模型 的 一 类 算法 。 它 们 只 适应 可 产生 矢量 数据 的 一 类 





























































































































FAE “多 元 校正 与 多 元 分 辨 | 357 | 


仪器 ， 常 见 的 有 紫外 可 见 光谱 、 红 外 光谱 、 拉 曼 光 谱 、 质 谱 、 色 谱 及 某 些 电化 学 谱 ， 其 基本 
数学 模型 可 由 下 式 给 出 




















y—2ic;z;ctr-ce-—Xc-cr-ce (6-30) 














UB. y 是 混合 物 的 量 测 矢量 ， 一 般 假设 在 & 个 分 析 通 道 (可 以 是 波长 、 波 数 等 ) 上 量 
测 所 得 ; x; G—1. 2. t. n) 是 待 测 物 的 纯 谱 矢 量 ; c; G—1. 2. t. n) 为 待 测 物 的 浓 
度 ; r 为 干扰 矢量 ; e 是 量 测 误差 ， 仍 假设 为 服从 正 态 分 布 的 零 均 等 方差 且 不 相关 的 白 噪 声 
误差 。 一 般 说 来 ， 有 kn 的 要 求 ， 和 否则 无 法 求解 。 另 外 ， 值 得 提出 的 是 ， 上 式 中 的 可 以 
是 几 个 干扰 物 的 线性 组 合 ， 即 























r—Xcjx; 


XB. x; Gl. 2. t. m) 为 干扰 物 的 纯 物 种 标准 谱 ; c; G51, 2, c. m) 为 其 
应 的 干扰 物 的 浓度 。 值 得 注意 的 是 ， 从 式 (06-300 fih BEES A, ATTIC IH 
少 物种 构成 的 ， 它 总 被 看 成 为 一 个 背景 矢量 ， 这 样 可 简化 模型 ， 但 是 ， 这 也 给 求 有 物理 意 
的 唯一 解 带 来 了 困难 。 这 在 以 后 的 讨论 中 将 逐步 展开 。 

《一 ) 投影 算法 和 多 元 校正 模型 的 检验 
因 灰 色 分 析 体 系 的 基本 特征 是 已 知 待 测 物 存在 于 待 分 析 的 样本 中 ,但 是 否 存 在 别 的 未 知 
干扰 不 清楚 ， 故 首先 确定 该 分 析 体 系 是 否 确 实 存在 未 知 干扰 就 十 分 重要 了 。 可 以 说 ,这 是 解 
析 灰 色 分 析 体 系 的 第 一 步 。 如 果 该 体系 经 检验 确实 存在 干扰 物 ， 此 时 ， 如 用 前 一 节 中 讨论 过 
的 白色 分 析 体系 的 解析 方法 ， 如 多 元 线性 回归 、Kalman 滤波 、 偏 最 小 二 乘 等 ， 将 不 能 获得 
准确 解 ， 必 须 采 用 可 排除 干扰 的 新 方法 。 投 影 算 法 就 是 一 种 这 样 的 多 元 校正 模型 的 检验 方 
法 ， 其 基本 思路 是 : 如 混合 样品 中 确实 只 含有 待 测 的 几 种 物质 ， 则 混合 物 光 谱 矢 量 必 可 由 这 
几 种 已 知 的 待 测 物 光谱 矢量 线性 表 出 ， 换 言 之 ， 它 必然 落 在 由 这 几 种 标准 物 纯 光 谱 矢 量 为 基 
矢量 所 构成 的 线性 空间 之 中 ， 只 须 用 这 几 个 纯 物 种 光谱 组 成 一 正 交 投影 矩阵 ， 对 其 进行 投影 
运算 ， 即 可 得 一 零 矢 量 ， 也 就 是 说 ， 其 正 交 补 空间 为 一 零 天 量 空 间 。 反 之 ， 如 混合 样品 中 含 
有 未 知 干 扰 物 ， 则 其 正 交 补 空间 不 为 零 ， 检 验 正 交 补 空间 不 为 零 就 构成 了 该 法 的 数学 基础 。 

要 对 由 式 (6-300 表示 的 灰色 体系 数学 模型 进行 检验 ， 关 键 是 要 找到 一 个 正 交 投影 矩阵 
来 对 混合 物 量 测 矢量 进行 投影 运算 。 在 构造 正 交 投影 矩阵 之 前 ， 有 必要 对 投影 矩阵 给 出 必要 
的 介绍 。 所 谓 投 影 矩 阵 ， 是 一 类 对 称 才 等 阵 〈 参 见 第 十 一 章 ) 。 对 于 由 式 (6-30) 示 出 的 校 
正 模型 ， 作 为 检验 用 的 正 交 投影 校正 可 由 下 式 给 出 
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P—U-—XX^) 


UB. D RXR WERIEESX—[xi. xo» co x]. EIA C AI UI ERE Jg 9 Adi 
PTA RAEE; X^ 则 为 其 广义 道 ， 亦 称 Moore-Penrose 道 , 一般 就 是 最 小 二 乘 逆 ， 即 





Xt=(X'X) X! 


根据 广义 逆 的 定义 (参见 第 十 一 童 )， 易 知 P MK A REER PRI. 


P'= 0 — XX’) =I'— (XX+) =I —XX` =P (对 称 ) 
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PP =(I— XX+) — XX+) =I —2XX++ XX+ XX^—I—XX* =P GRE SE) 
如 将 由 上 式 定 义 的 正 交 投影 阵 作 用 在 由 式 〈6-30) 给 出 的 混合 物 量 测 矢量 上 ， 则 有 
) —Py—ü—XX^»X(Xectr-ce) 

— Xc — XX+ Xc+ (IT— XXt)ri (I— XX+)e 

=(I— XXT)ri+ (IT— XX+)e=r* +e* 
从 上 式 的 推 Meo 如 果 上 式 给 出 的 混合 物 量 测 矢 量 中 没有 背景 干扰 矢量 这 一 项 ， 
则 经 这 样 的 投影 运算 后 ， 就 只 剩 下 误差 项 ， 在 此 e* 应 仍 为 一 ee E 
5E. 车 体系 中 含有 未 知 干扰 ， 则 除 此 误差 项 外 ， 还 有 一 项 r”*， 除 非 可 由 X 王 [Lxi， 
Xos tt’ Xn] 线性 表 出 。 因 有 r* 的 存在 ，y* 就 不 是 一 零 均 等 方差 的 误差 矢量 了 。 


根据 以 上 分 析 ， 可 建立 如 下 的 模型 检验 方法 。 首 先 ， 用 + 分 布 检 验 ”是 否 为 一 零 均 的 
随机 矢量 ， 即 原 假 设 Ho: EF(yi) =0， 令 统计 量 T 为 





























T —(ECy)) —0 x Jk — 1/8, 





RP, S,—4/23 [y E (y) P/k; E (y) —2Xyj/k. WIT | >t: WEER 
it Ho. tT B c 分 布 表 查 得 。 

仅 对 y* =y; yos cn ye) 进行 均值 检验 尚 不 充分 ， 还 须 检 验 y* 的 模 ， 即 所 谓 二 范 
数 | y* | ， 是 否 显著 大 于 量 测 误差 ， 光 度 分 析 的 量 测 误差 一 般 在 1%~2% 之 间 ， 故 可 假设 
其 方差 由 下 式 估 计 








c?—0.01x ly I? 


如 d y* l?a? = ly * l?/€0.01»x Ty?) 二 3， 即 此 时 的 信 品 比 大 于 3， 根 据 分 析 化 学 中 
的 检测 下 限定 义 中 ， 此 时 可 认为 体系 中 存在 未 知 干扰 物 ， 不 能 认为 y* 是 一 随机 误差 矢量 。 
综 上 所 述 ， 如 果 |T| un H dy? 2/0 六 3， 则 可 认为 校正 模型 不 正确 ， 体 系 确 实 存在 
有 未 知 干扰 物 ， 此 时 不 能 直接 使 用 白色 分 析 体 系 的 校正 方法 来 进行 校正 ， 必 须 先 排除 背景 干 
扰 。 表 6-9 给 出 了 一 些 具体 实例 [97 。 


校正 模型 的 检验 结果 



























































编号 体系 实际 存在 的 物种 校正 模型 包含 的 物种 t 检验 结果 信 噪 比 检验 结果 
1 Crêt ,Ni2+ Cr? 1. 901 28.6 存在 干扰 
2 Cr?* , Ni?* Cr?* , Ni?* —0. 0168 0. 38 模型 正确 
3 Citt NH; Cort Cr?* , Ni?* 1. 883 15.4 存在 干扰 
4 Cra+ ,Ni2+ ,Co** Crêt ,Ni2+ ,Co?* 0. 347 0. 754 模型 正确 
5 E: 29.3 59.4 存在 干扰 
6 H H 0. 964 3.12 模型 正确 
7 Afr. EIFE RE 10. 48 3.18 存在 干扰 
8 茶 并 让 9€ X WIFE KRE 0. 763 0. 968 模型 正确 
9 氨基 上 比 林 、 安 蔡 比 林 、` 巴 比 妥 氨基 上 比 林 、 安 蔡 比 林 0. 436 4. 79 存在 干扰 
10 AA A VU. ER HER LESTIE E A d EU Z VER LES IE 0. 029 0. 462 模型 正确 
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Crs+ ,3. 20mg/ml 
Ni?* ,2. 20mg/ml 
Cr?^* ,6. 40mg/ml 
Ni?* ,2. 20mg/ml 
Cot ,1. 73mg/ml 
ARJf 6.0. 7mg/L 

2€ LC .0. 10mg/L 
氨基 比 林 ,10. 0mg/L 
巴 比 妥 ,1.80mg/L 
安 替 比 林 ,4. 0mg/L 





Cr?* ,7. 46mg/ml 


Cr?* ,10. 3mg/ml 
Ni?* ,1. 70mg/ml 


3L .0. 367 mg/L 
氨基 比 林 ,16. 4mg/L 
比 妥 ,1. 41mg/L 


D 


2 


(E Bj 








Cr?* ,3. 30mg/ml 
Ni?^* ,2. 21mg/ml 
Cr?* ,6. 40mg/ml 
Ni?^* ,2. 21mg/ml 
Co?* ,1. 77 mg/ml 
AEJf ib ,0. 673mg/L 
2€ EL .0. 107 mg/L 
氨基 比 林 ,10. 0mg/L 
巴 比 受 ,1.79mg/L 
安 替 比 林 ,3.91mg/L 


(D 此 表 的 编号 同 表 6-9. 


从 上 面 的 结果 可 以 看 出 ， 如 不 经 校正 模型 检验 ， 对 于 校正 模型 不 确定 的 分 析 体 系 ， 直 接 
使 用 常规 的 白色 分 析 体系 的 解析 方法 ， 如 最 小 二 乘 回 归 ， 进 行 多 组 分 同时 测定 ， 所 得 结果 是 
不 可 靠 的。 值得 特别 指出 的 是 ， 对 于 校正 模型 的 检验 ， 只 用 1 检验 是 不 够 的 ， 这 从 表 6-10 
中 的 第 9 号 样本 所 得 结果 就 可 以 看 出 。 

关于 排除 干扰 可 分 为 两 种 情况 : 一 种 是 已 知 可 能 存在 干扰 物种 的 大 致 范围 ， 此 时 可 分 别 
记录 各 可 能 干扰 物种 的 标准 量 测 谱 ， 并 同时 对 其 进行 投影 运算 ， 继 用 检索 方式 以 确定 干扰 物 
的 种 类 ， 然 后 只 须 将 其 代入 式 (6-30)， 继 用 白色 分 析 体 系 的 解析 方法 ， 即 可 求 出 待 测 物 的 
浓度 ， 有 关 例 子 可 参见 文献 [97]; 另 一 种 情况 是 有 关 未 知 干扰 物 的 信息 一 无 所 知 ， 这 种 情 
况 的 处 理 比较 复杂 ， 在 下 文 即 将 对 这 种 情况 进行 详细 讨论 。 

(二 ) 标准 加 入 迭代 目标 转换 因子 分 析 法 
由 Malinowaski 提出 的 目标 转换 因子 分 析 法 曾 用 于 含 已 知 干扰 组 分 的 混合 物 同 时 测 
定 [98] ， 但 此 法 实际 是 很 难 用 于 含 未 知 干扰 物 的 多 组 分 体系 分 析 的 ， 因 为 目标 转换 须 设 定 实 
验光 谱 矢 量 。 在 组 分 干扰 未 知 的 情况 下 ， 实 验 矢 量 无 从 选择 ， 另 一 方面 ， 因 子 分 析 法 要 求 / 
个 各 组 分 浓度 不 同 的 混合 试 样 以 构成 数据 和 矩阵， 且 7 应 大 于 待 测 组 分 数目 xw， 而 分 析 工 作 中 
通常 只 有 一 份 含 未 知 干扰 的 多 组 分 混合 试 样 ， 除 非 借助 男 外 的 分 离 手 段 。 

标准 加 入 迭代 目标 转换 因子 分 析 法 ”J ， 其 主要 思路 是 将 标准 加 入 、 和 矩阵 投影 运算 及 和 迭 
代目 标 转换 等 技术 结合 起 来 ， 构 成 一 个 新 算法 ， 先 完成 未 知 干扰 背景 的 检 出 ， 从 而 使 其 转化 
为 简单 的 白色 分 析 体 系 ， 再 用 本 章 第 三 节 的 直接 校正 方法 即 可 进行 单个 或 多 个 待 测 组 分 的 定 
量 分 析 测 定 。 

对 于 由 式 06-300 示 出 的 灰色 分 析 体 系 的 校正 模型 ， 借 前 一 节 已 讨论 过 的 广义 标准 加 入 
法 ， 分 别 对 混合 试 样 加 入 标准 待 测 组 分 ， 从 而 得 到 一 组 标准 加 入 系列 浴 液 的 量 测 矢量 y! 












































































































































4 一 1，2，…，/ 一 1)， 构成 一 量 测 和 矩阵 : Y-[y?. yo tns’ y]. 注意 ， 在 这 里 要 求 1— 
n， 而 且 ，y" 就 是 由 式 (6-30) 示 出 的 原始 量 测 矢量 。 继 对 矩阵 Y 进行 主 成 分 分 解 (奇异 值 

















分 解 ) 可 得 
Y —USV' —UT' 


式 中 , U 和 VV 分 别 为 两 个 正 交 标 准 化 矩阵 ;8 为 XL) 阶 对 角 和 矩阵 。 显 然 ， 如 果 体 系 
中 存在 未 知 干扰 背景 ， 则 Y EEKEREN at), BW, HEX ns HEE RTE A R Mi 
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实 存在 未 知 干扰 背景 的 情况 ， 故 须 取 (n 十 1) 个 对 应 于 较 大 特征 值 CHI S. 矩阵 中 的 对 角 元 
素 之 值 ) 的 特征 矢量 来 构成 主因 子 阵 已 ， 并 根据 朗 伯 - 比 耳 定律 ， 有 











Y —XC' —URR ^! T! (6-31) 


RP, X= [xl x?, e, x". r], BI E AAW H ES E OG S N IR Æ m ER RETE E 
干扰 光谱 矢量 所 构成 的 矩阵 ， 男 外 ， 











Ct =C; 十 ACT 
其 中 ， 
[ci Ci s] 
Cy C2 C2 
Có = 
Cn Cn Cn 
| 1 1 lj 
| 0 Acll Ae€g AC, 1 
0 Aci? Ac2? Aci, 2 


AC! = 
0 AC; AC», Pus Ac, n 


0 0 0 0 0 











在 此 Ac; do i 次 对 第 j 个 待 测 组 分 加 入 的 浓度 ， 而 且 在 加 入 时 使 背景 干扰 的 浓度 实际 
保持 不 变 。 在 实际 标准 加 入 时 ， 为 保持 这 一 条 件 ， 可 采用 加 入 小 体积 的 较 浓 标准 溶液 或 采用 
稀 至 相同 体积 的 方法 。 男 外 ， 在 式 (6-31) P, PER 称 为 转换 矩阵 ， 它 将 抽象 波谱 因子 
EEU (或 称 得 分 矩阵 ) 和 抽象 浓度 因子 矩阵 T 转换 成 为 有 物理 意义 的 真实 标准 量 测 谱 和 矩 
阵 针 和 真实 浓度 矩阵 C'。 

根据 因子 分 析 目 标 转换 法 ， 采 用 已 知 的 7 个 竺 测 物 标准 量 测 和 拓 量 ， 即 可 求 出 R 矩阵 的 7 
列 r; G —1,2,-.n), XEK XC' 2UT' 2URR ! T* , JRB 




















X —UR 
实际 上 ， 如 果 将 上 式 写 成 矢量 式 ， 则 有 


x; —Uri (i =1,2, sn) 





因为 上 式 中 x; 为 已 知 矢量 ， 用 最 小 二 乘法 解 此 方程 ， 立 即 可 得 


r; —(QU'U) !U'x; (i —1.2.7.n) 
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HUKS EZE, MA UU :的 求 逆 很 容易 ， 实 际 上 就 是 对 角 特 征 值 矩 阵 的 倒数 阵 。 
利用 上 式 可 以 求 得 R 矩阵 的 n 列 。 但 是 ， 因 对 背景 干扰 量 测 矢量 事先 无 任何 已 知 信息 ， 只 
可 采用 迭代 法 来 求解 。 

迭代 法 包括 以 下 步骤 。 

OD 和 迭代 初始 矢量 的 选择 ”和 迭代 初始 天 量 的 选择 将 决定 迭代 能 和 否 收敛 至 正确 值 ， 这 就 要 
求 迭代 初始 矢量 含有 背景 干扰 矢量 的 基本 信息 ， 而 其 他 竺 测 组 分 量 测 矢量 的 影响 则 应 尽量 扣 
除 ， 和 迭代 结果 方 可 旨 青 景 量 测 矢量 收 义 ， 这 是 解决 问题 的 关键 所 在 。 在 这 里 采用 待 测 组 分 的 
标准 量 测 矢量 构成 投影 矩阵 
























































P—U-—XX?) 


RP, IH Xk) 阶 单位 阵 ; 针 二 《x1 ,xs,…,xX,) , 即 由 已 知 待 测 物 标准 谱 为 列 和 撩 量 
BR BS AREE X 为 其 广义 道 , 亦 称 Moore-Penrose 3* ,一 般 就 是 最 小 二 乘 逆 , 即 





Xt=(X'X) 1X! 











用 此 矩阵 己 对 混合 物 量 测 矢量 y" 进行 投影 运算 ,所 得 的 投影 矢量 y%* 就 具有 上 述 所 需 性 
质 。 而 且 , 值 得 提出 的 是 ,投影 矢量 y 与 所 有 待 测量 测 矢 量 都 正 交 , 即 




















Ox*t 


x; —0 (i =1,2,.,n) 


了 Xi yx 
— yt ptpy! 
—y"P — XXD z; 
=y"P' (x; — XX" x:) 
=y" P* (0) 


=0 (i =1,2,*,n) 


taR, EERE ATR e a XX X — X .J Bil 

XX xi 一 xi 的 性 质 。 正 是 由 于 投影 矢量 与 所 有 待 测量 测 矢 量 都 是 正 交 的 ,所 以 ,可 以 说 ， 
这 样 选 出 来 的 初始 迭代 矢量 y%* 名 和 和 和 台币 和 有 从， 

(2) 迭代 过 程 用 上 述 方法 得 到 初始 迭代 矢量 y" 后 ,将 其 作为 背景 干扰 矢量 的 初始 佑 
计 了 °°, 并 用 其 取代 式 x; 二 Ur; 中 的 xj;, 由 ;二 (UU)- Co x 求 出 r; 后 , 继 用 式 x; 二 Ur; 求 新 的 
背景 干扰 矢量 f1, 仿 此 可 得 f? ,如 此 循环 迭代 ,直至 收敛 , 即 上 fo71 一 了 9 有 小 于 某 一 给 定 正 
值 时 ,终止 迭代 ,此 时 所 得 最 终 矢量 则 为 可 能 的 背景 干扰 矢量 。 A ban Hy 
A 40H Pha SERE. ATE a F R 53 CUALES dec DU Ac t FR] CER BE AIRCKUSE HIER 13813 
背景 干扰 矢量 十 分 接近 真实 的 背景 干扰 ,但 是 当 背 景 干扰 谱 与 待 测 物 种 的 量 测 矢 量 的 重合 度 
很 大 时 ,一 般 很 难得 到 真实 解 。 

(三 ) 自 适应 Kalman 滤波 法 

自 适 应 Kalman 滤波 法 可 用 于 求解 灰色 分 析 体 系 问题 [100'100 ,实际 上 就 是 利用 了 新 息 系 
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列 的 特征 。 
首先 ,将 常规 Kalman 滤波 算法 方程 总 结 列 于 表 6-11, 
































常规 Kalman 滤波 算法 方程 








状态 估计 模型 c(k)=Ic(k—1) 


量 测 模 型 yG)— xG)OeCk) or CE) 
Kalman 增益 k(k) — PGOx GO[x CR — D'PGOxG —1) tr]! 
误差 协 方 阵 估 计 PGo-—[I—-g(G —DxGO' JPG — D[I —gCk — DxCGO']'-g(e—DrGDOg(G —D' 


状态 估计 递 推 





cGOo—c(G — D kGOO[y GO —xGO'cCGRO] 








在 表 6-11 F, e GO 为 量 测 体系 在 第 k 个 量 测 点 上 的 浓度 估计 矢量 ; xk) 表示 在 第 & 个 
量 测 点 上 的 系数 矢量 ， 即 通常 所 说 的 敏感 系数 ， 可 以 是 摩尔 吸光 系数 等 ; y CO 为 在 第 & 个 



































量 测 点 上 混合 物 的 量 测 值 ; >() 为 在 第 & 个 量 测 点 上 的 量 测 误差 ; ECG) 为 第 & 个 量 测 点 上 
的 Kalman 增益 矢量 ; P) 为 在 第 & 个 量 测 点 上 的 量 测 协 方差 阵 的 估计 。 新 息 系列 的 定义 





是 :vCR)= 一 y(R) 一 zx(CR)rc(R) ， 实 际 上 就 是 第 & 个 量 测 点 上 的 估计 残 差 .这 个 信息 对 调节 递 
归 的 动态 模型 很 有 用 ， 故 在 Kalman 算法 中 占有 十 分 重要 的 地 位 。 自 适应 Kalman 滤波 就 是 
建立 在 这 一 概念 之 上 。 首 先 来 看 看 ， 当 校正 模型 不 正确 时 ， 亦 即 当 混合 物 测 矢量 中 含有 未 知 
干扰 时 ， 新 息 系 列 是 怎样 变化 的 。 

如 果 校 正 模 型 正确 ， 新 息 系 列 应 该 为 一 具有 和 零 均 不 相关 的 白 噪声 系列 ， 实 因 v ORO 就 是 
第 & 个 量 测 点 上 的 估计 残 差 。 估 计 残 差 是 一 个 很 有 用 的 指标 ， 如 果 估 计 残 差 比较 大 且 具 有 一 
定 的 相关 性 ， 就 说 明 用 于 校正 的 模型 存在 问题 ， 被 估计 的 参数 当然 也 不 正确 。 因 此 ， 正 如 第 
三 节 中 讨论 的 那样 ， 新 息 系列 是 一 个 很 好 的 检验 校正 模型 的 指标 ， 在 此 ， 将 给 出 一 个 例子 来 
说 明 。 图 6-33 (a) 示 出 了 一 个 由 三 个 Guass 峰 模 三 个 组 分 Ca. b. o 构成 的 混合 物 光 谱 ， 
如 果 只 用 两 个 组 分 a, bd 来 构成 校正 模型 ， 所 得 新 息 系 列 如 图 6-33 (b) 所 示 。 在 第 三 个 
组 分 (c) 还 没有 出 现 之 前 ，Kalman 滤波 的 新 息 系列 明显 是 具有 白 噪 声 性 质 的 ， 这 说 明 校 正 
模型 在 已 被 滤波 的 这 一 段 是 正确 的 。 然 而 ， 一 旦 第 三 组 分 开始 有 吸收 时 ， 信 息 系列 开始 变 大 
且 具 相关 性 质 ， 这 说 明 校 正 模型 已 不 正确 了 ， 在 这 样 错误 校正 模型 下 估计 的 浓度 亦 将 不 准确 
了 。 从 上 述 结果 可 以 看 出 ， 因 为 Kalman 滤波 是 递归 进行 的 ， 当 校正 模型 正确 时 ， 新 息 系列 
给 出 模型 正确 的 信息 ， 如 果 模 型 发 生 错误 ， 新 息 系列 马上 发 生变 化 ， 给 出 模型 错误 的 信息 。 
这 就 提示 我 们 ， 只 要 能 利用 新 息 系列 所 提供 的 这 些 信 息 ， 就 有 可 能 将 Kalman 滤波 技术 用 于 
灰色 分 析 体 系 的 解析 ， 这 就 是 下 面 将 要 讨论 的 自 适应 Kalman 滤波 方法 。 

为 了 防止 模型 错误 而 导致 Kalman 滤波 算法 估计 失败 的 情况 ， 人 们 可 采用 自 适 应 技术 。 
一 般 的 Kalman 滤波 都 是 用 不 变 的 ~(&) 来 进行 计算 ， 而 自 适 应 Kalman 滤波 方法 就 是 通过 
在 滤波 过 程 中 调节 x(k) 来 抵制 模型 错误 ， 它 的 估计 可 以 由 下 式 给 出 [5 




































































































































































rk) —1/mL > vk — jv(k —j)]— x E)!'P GOx Ge) 





AF, m 是 新 息 系列 求 和 的 窗口 大 小 。 上 式 通 过 前 m 次 获得 的 新 息 序列 来 估计 x(k) 的 
K, Mrk) 的 大 小 对 滤波 算法 的 影响 可 由 表 6-11 列 出 的 Kalman 增益 估计 式 看 出 。 当 校 
正 模型 正确 时 , n ORO 就 很 小 ,这 时 表 6-11 列 出 的 状态 估计 式 对 新 的 量 测 信息 很 人 敏感， 新 息 
序列 的 变化 相应 也 很 小 。 当 模型 出 现 错误 时 ，r(&) 将 很 快 变 大 ， 从 而 使 Kalman 增益 变 小 ， 
使 得 由 表 6-11 列 出 的 状态 估计 式 对 新 的 量 测 信息 不 敏感 。 这 样 通过 估计 7(&) 如 此 进行 的 自 
适应 调整 ， 使 得 Kalman 滤波 算法 其 至 在 模型 错误 的 条 件 下 ， 亦 即 在 有 未 知 干扰 存在 的 灰色 
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分 析 体 系 的 情况 下 ， 也 可 较 正确 地 估计 体系 待 测 物 种 的 浓度 。 

自 适应 Kalman 滤波 算法 除 能 得 到 准确 的 浓度 估计 以 外 ， 通 过 自 适应 调整 ， 它 还 可 能 在 
量 测 过 程 中 得 到 正确 的 校正 模型 。 因 为 r(&) 实际 上 是 一 计算 的 方差 ， 而 该 方差 正好 代表 了 
在 第 & 量 测 点 上 的 模型 误差 。 这 样 ， 一 个 新 的 校正 矢量 x(k) 可 以 通过 rr(k) 计算 出 来 ， 对 于 
本 节 讨 论 的 含 未 知 干扰 的 校正 模型 ,无非 是 要 找到 背景 干扰 的 量 测 系 数 ， 即 在 原 模型 的 校正 
矢量 x(k) 中 增加 一 个 新 分 量 





























x GO, —bGDLrG 4 m/2) 1 ( 当 b(k) 22 0 时) (6-32a) 
x GO), =0 Q b(R) «0 BD (6-32b) 





式 中 ,为 原 校正 模型 的 组 分 数 ， 所 以 xk) 实际 就 是 背景 干扰 的 量 测 系 数 。 式 中 用 
rk +m/2) 实际 上 就 是 要 利用 第 k 量 测 点 附近 的 m 个 新 息 序 列 数据 来 进行 调节 ， 另 外 ， 式 
HHJ O) 定义 如 下 : 























b(k)=1 QU S uk — j -m/2)/m 之 0 时 ) 
b(k)——1 D vkj -m/2)/m — 0 WD 
上 两 式 的 目的 是 为 了 决定 校正 模型 偏差 的 符号 ， 而 这 符号 是 由 m 个 新 息 系列 的 数据 的 平均 












































值 来 决定 的 。 式 (6-32) 的 采用 是 因为 一 般 的 多 组 分 校正 模型 量 测 系数 都 是 正 值 ， 即 组 分 浓 
度 的 响应 一 般 都 是 与 浓度 成 正比 的 。 

从 以 上 对 自 适 应 Kalman 滤波 的 介绍 可 以 看 出 ， 误 差 协 方差 阵 P(&) 的 初始 值 的 选择 与 
常规 Kalman 滤波 算法 是 相同 的 。 只 要 给 出 cl(k) 和 P(k) 的 初始 值 , 即 c(0) 和 PC(0)， 就 可 按 
k(k) —PGOx Gol x G — D'PGOx(k —D +r] WERE SS. MISTER cek) 一 
c(G — Dd kGOLy GO — x GO'cCGO ] fl POO —[I — gk — Dx G)! JPCR — DLI — gk 
Dx GO! ]' -gG — Dr GO G — D' 3TSE F —^h* c GRIP GO 25 8]— 4g 2b DR GE UR CCP 
KF m 时 ) .His&C6-322) RIR (6- 32bD KE HE SE TEC Ux (0i. MA, AEM Kalman 滤波 
具体 算法 可 由 下 列 步 又 组 成 。 

CO 置 初 值 c(0-20. PO) —Yy?IUA cCO 中 的 零 元 素 个 数 与 待 测 组 分 个 数 相 同 ]， 
这 里 了 为 单位 矩阵 ，y? 为 初始 估计 的 量 测 方差 ， 此 值 按 下 述 经 验 式 估 出 ， 



































jy*esaitcD/Lrosec pv? 


UB. a 为 一 与 计算 机 精度 相关 的 因子 ， 一 般 可 取 10 一 100。 值 得 提出 的 是 , PCO) 取 值 
太 小 ， 可 导致 有 偏 估计 ， 如 取 值 太 大 ， 尽 管 参量 的 估计 值 是 无 偏 的 ， 但 由 于 量 测 点 数 不 够 
K, PO) 的 最 终 估 计 值 仍 会 偏 大 。 

(2) 确定 m， 一 般 定 在 10 一 20 之 间 均 可 。 

(3) 局 动 计算 : 

















g(R) 王 PR 一 1])xz(CR)LxCRD)IPCR 一 1)x(CR) 十 六 (R)] 一 ! 


c(k)=c(k—1)+g(k)lzk)—x(k)te(k —1)] 





P(k)=[I—g(k—1)x(k)']JPk—D[I—g(k—1)xk)t]t + 
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g(k—1)r(k)g(k—1)' 





KP, rO ERWE eO 的 方差 可 根据 实际 量 测 噪声 方差 具体 确定 。 重 复 此 步 计 
算 直至 递归 次 数 大 于 。 
(4) 利用 下 述 计 算式 浓度 估计 未 知 干扰 谱 





























x GOo,a =b) Erk + m/2)]2 Q 5) > 0 时 ) 
x CE),44 一 0 CHL) 二 0 时 ) 
其 中 
b(k)=1 QA S vk — j -m/2)/m 之 0 时 ) 





b()——1 D vk — j 4- m/2)/m 0N) 








将 未 知 干扰 谱 包 括 于 x (k) P, 重复 上 述 各 步 计 算 ， 直 至 达到 稳定 ， 即 P(k) 阵 的 对 角 元 素 
在 一 段 计算 步骤 中 丝 为 很 小 ， 此 时 得 到 的 c(k) 即 为 所 求 。 

在 自 适 应 Kalman 滤波 算法 中 ,误差 协 方差 阵 P(k) 的 初始 值 的 选择 与 常规 Kalman JE 
波 算法 是 相同 的 。 值 得 注意 的 是 ， 在 自 适应 Kalman 滤波 算法 中 , P) 阵 的 计算 受 rk) 的 
影响 很 大 (参见 表 6-11 列 出 的 Kalman 增益 估计 式 和 误差 协 方差 阵 估 计 式 )。 当 模型 误差 很 
小 时 , FOR 是 减 小 的 ， 这 将 使 Kalman 增益 变 大 ， 从 而 导致 P(k) 阵 对 角 元 素 变 小 。 因 为 
rk) 值 直 接 与 模型 的 质量 相关 ， 所 以 ， 自 适应 滤波 的 P(k) 阵 的 对 角 元 素 应 该 是 浓度 参数 最 
终 估计 质量 好 坏 的 一 个 有 用 指标 。 

在 自 适应 Kalman 滤波 算法 用 于 灰色 分 析 体系 〈 图 6-33) 的 解析 中 ， 存 在 两 个 重要 的 先 
决 条 件 ， DAEM Kalman 方法 用 于 分 析 时 ， 在 开始 滤波 时 必须 有 一 段 过 程 校正 模型 是 正确 
的 ， 亦 即 在 这 一 过 程 中 ， 每 一 个 已 知 存在 的 待 测 组 分 都 必须 有 响应 ， 而 背景 干扰 却 无 响应 。 
@ 对 于 式 (6-32) 给 出 的 模型 错误 校正 项 ， 只 有 当 背 景 干 扰 是 一 单 组 分 时 , x (Ou 才 是 该 
组 分 的 量 测 矢量 ， 但 是 ， 因 为 背景 干扰 一 般 来 说 很 难 确定 其 组 成 ， 所 以 , xn 一 般 只 能 
看 作 未 包括 在 校正 模型 内 的 整个 背景 干扰 的 量 测 系数 。 在 以 上 两 个 先决 条 件 中 ， 第 一 条 为 一 
很 强 的 条 件 ， 这 是 因为 灰色 分 析 体 系 的 背景 干扰 实际 上 是 未 知 的 ， 不 能 保证 在 开始 滤波 时 必 
须 有 一 段 过 程 校正 模型 是 正确 的 ， 这 就 限制 了 该 算法 在 实际 中 的 应 用 。 
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波长 mm 波长 /nm 
(a) (b) 
自 适应 Kalman 滤波 解析 灰色 体系 原理 
(a) 三 组 分 体系 的 光谱 图 ，a，b，*e 为 三 个 组 分 的 纯 组 分 光谱 ， 其 中 为 
未 知 干扰 光谱 ，d 为 混合 物 光 谱 ; (bo 只 考虑 了 a, b 两 组 分 校正 模型 的 
Kalman 滤波 的 新 息 系 列 
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(四 ) 局 部 曲线 拟 合 法 

局 部 曲线 拟 合法 由 Karstang 和 Kvalheim 提出 [102] ， 其 主要 思路 是 利用 背景 光谱 的 极 大 
值 来 进行 校正 ， 因 为 如 对 光谱 进行 微分 后 ， 背 景 光谱 的 极 大 值 处 将 为 零 ， 即 在 这 一 波长 点 上 
背景 干扰 将 不 对 待 测 物 的 定量 测定 带 来 影响 ， 从 而 达到 消除 未 知 背 景 干扰 的 效果 。 问 题 是 因 
背景 干扰 是 完全 未 知 的 ， 怎 样 通过 已 知 条 件 来 正确 确定 背景 光谱 的 极 大 值 的 波长 位 置 将 是 该 
法 成 功 与 否 的 关键 。 

对 于 一 般 的 灰色 分 析 体 系 的 矢量 数学 模型 ， 均 可 简化 为 以 下 只 含 一 个 待 测 分 析 物 的 情 
况 ， 即 



























































y =cıx; +r +e 


式 中 ，y 为 含 未 知 干扰 的 混合 物 光 谱 量 测 矢 量 ，x1 为 待 测 分 析 物 的 标准 光谱 ，c1 为 该 
待 测 分 析 物 的 相对 浓度 ，r: 为 一 假设 的 未 知 干扰 的 量 测 光 谱 。 必 须 指出 的 是 ，r: 这 一 假设 
的 未 知 干扰 的 量 测 光 谱 实际 上 是 其 他 的 待 测 物 的 量 测 矢 量 与 实际 未 知 背 景 干扰 量 测 光谱 矢量 
之 和 ， 即 





n 
p — Mex +r 
i-2 





这 样 ， 一 般 的 灰色 分 析 体系 的 数学 模型 就 转化 为 只 含 一 个 待 测 分 析 物 的 灰色 分 析 体 系 模 型 。 
注意 到 这 样 的 变换 并 没有 改变 问题 的 实质 ， 可 以 通过 不 断 地 改变 不 同 的 分 析 物 以 达到 为 每 一 
个 待 测 组 分 定量 的 目的 。 以 下 将 只 对 只 含 一 个 待 测 分 析 物 的 情况 进行 讨论 ， 其 他 分 析 物 的 定 
量 可 完全 参照 此 例 同样 进行 。 

由 于 y 是 一 个 量 测 光谱 矢量 ， 所 以 ， 它 是 一 个 波长 的 函数 ， 如 果 对 其 进行 波长 方向 的 
微分 ， 可 得 




















dy /dÀ =c; dxı/dà + dr*/dA 





dy: /dÀ dz 4, /dÀ dri/da 
dis /dX dedi dr /dà 
zi, dac | 7 Lau CMS |; drs/di— u ; m 是 量 测 光 谱 
dy » / dÀ dz ;,, /dA dr 5, /dA 
的 波长 点 数 。 


设 在 假设 的 未 知 干扰 的 量 测 光 谱 存 在 有 一 个 极 大 点 ， 记 为 第 & 点 ， 则 有 
dy; /dÀA —c4dz,, /dat drè /dA 
dr;/dA 在 极 大 点 为 零 ， 所 以 有 


Ci = (dy /dA)/Cdx 4, /dA) 





也 就 是 说 ， 只 要 找到 了 未 知 干扰 的 量 测 光谱 的 一 个 极 大 点 的 波长 位 置 ， 就 可 利用 这 一 点 来 求 
得 待 测 物 的 相对 浓度 。 问 题 是 怎样 正确 估计 出 未 知 干扰 的 量 测 光 谱 极 大 点 的 波长 位 置 。 该 法 
的 几何 含义 示 于 图 6-34。 
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待 测 物 光谱 





导数 谱 
背景 干扰 光谱 的 A 


一 阶 导数 谱 

















波长 
利用 一 阶 导数 求 待 测 物 浓度 示意 图 


在 文献 [102] 中 ，Karstang 介绍 了 一 种 基于 同时 利用 一 阶 导 数 和 三 阶 导数 来 估计 未 知 干扰 
的 量 测 光 谱 极 大 点 的 波长 位 置 方法 ， 在 此 将 介绍 一 种 基于 迭代 目标 因子 分 析 法 来 佑 计 未 知 干扰 的 
量 测 光 谱 极 大 点 波长 位 置 的 方法 ， 找 到 这 个 极 大 点 后 ， 继 而 用 式 cl = (dy, / dA) / Cdr / dA) 
即 可 求 得 待 测 物 的 相对 浓度 。 

从 上 面 介 绍 的 基本 思路 可 知 ， 局 部 曲线 拟 合法 具体 可 由 以 下 步骤 来 实现 。 

OD 用 x 构成 一 个 正 交 投影 矩阵 P 




















P=Q@— xxix) xz! 


RP, I 为 一 mXm) 阶 的 单位 矩阵 。 
(2) 用 正 交 投影 矩阵 卫 对 混合 物 量 测 光 谱 进 行 投 影 ， 得 到 一 与 xi 正 交 的 ， 即 属于 xi 矢 
零 空 间 的 一 个 矢量 了 y*， 该 矢量 已 将 xi 的 影响 全 部 扣除 ， 主 要 反映 了 未 知 干扰 的 量 测 光谱 


BS fei 














Py —[I — x4 (xix)! xi ]y 
=[I— zı (xixi) xi] cix; 十 rs) 
—[I—zx,Gixj))!xi]r5 =y” 
(3) JH x, ftl y 构成 一 个 矩阵 Y， 即 YY 三 Ly，xi1]， 并 对 其 进行 主 成 分 分 解 
Y —-USV: —UT' 


UB. T=SV', SERRE KA ABIEE; U 则 称 为 因子 得 分 矩阵 。 继 用 它 构 成 迭代 用 投 
EIEE, X y* 进行 迭代 运算 : 
&r® =y*, k=1, 2, > 


ro? —UU'r^-? 
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ERRER, WÉ rD 中 的 负 元 素 都 置 为 零 ， 然 后 再 进行 投影 运算 ,这 样 的 迭代 过 
程 一 直选 代 到 [| r0? ren 小 于 某 一 给 定 值 。 这 样 迭 代 求 得 的 背景 撩 量 将 会 很 靠近 真实 
的 背景 ， 此 时 ， 再 找到 该 背景 的 极 大 值 的 波长 位 置 ， 用 式 ci = (dy, /dA)/Cdx i, /dA) 来 求 得 
待 测 分 析 物 的 相对 浓度 。 

一 般 说 来 ， 该 法 求 出 的 待 测 分 析 物 的 相对 浓度 ， 在 背景 光谱 与 分 析 物 光谱 重 倒 度 不 大 时 
结果 将 与 实际 值 比较 靠近 ， 因 此 时 背景 光谱 极 大 值 的 波长 位 置 估计 将 比较 准确 ， 然 而 ， 如 果 
背景 光谱 与 分 析 物 光谱 重合 度 很 大 时 结果 将 不 太 可 靠 了 。 从 这 一 角度 来 看 ， 虽 用 式 ci — 
(dy, /dà )/ Cdx ,, /dAO 可 得 到 唯一 解 ， 但 背景 光谱 极 大 值 的 波长 位 置 估计 是 否 准确 仍 受到 其 
他 因素 的 制约 。 为 了 得 到 较 精 确 解 ， 一 般 需 要 采用 内 插 法 来 求 真正 极 大 点 的 位 置 ， 实 因 极 大 
点 的 位 置 可 能 落 在 两 个 量 测 波长 点 之 间 ， 这 也 是 为 什么 将 其 称 为 局 部 曲线 拟 合 方法 的 原因 。 
综 上 所 述 ， 实 际 上 此 法 仍 只 能 说 是 得 到 了 一 个 可 能 解 ， 真 正 的 严格 唯一 解 还 需 用 下 一 节 讨 论 的 
二 维 数据 的 化 学 计量 学 方法 才能 得 到 。 


Z2., EE ( 非 迭 代 类 二 阶 张 量 ) 校正 方法 


从 前 一 节 的 讨论 中 可 以 看 到 ， 用 矢量 校正 模型 来 进行 灰色 分 析 体 系 的 解析 ， 都 存在 很 强 
的 先决 条 件 ， 如 果 这 些 先 决 条 件 不 能 满足 ， 则 很 难保 证 求 得 的 解 是 有 物理 意义 的 真实 解 。 可 
以 认为 ， 这 样 的 困难 主要 是 来 自 对 未 知 干扰 背景 谱 知 之 其 少 ， 它 可 以 由 任意 的 很 多 未 知 干扰 
所 组 成 ， 对 于 这 样 的 背景 干扰 根本 无 法 从 一 个 矢量 中 确定 其 组 分 数 。 先 来 看 一 个 最 简单 的 灰 
色 分 析 体系 的 例子 ， 即 在 这 样 的 灰色 分 析 体系 中 ， 定 性 已 知 的 待 测 组 分 只 有 一 个 ， 其 数学 模型 为 










































































y=cıx; Hr +e 





在 此 模型 中 ， 代 求 的 参数 只 有 ei. CH ARS CERT DURUM E > 还 是 未 知 的 。 这 可 以 说 是 灰色 
分 析 体 系 中 一 种 最 简单 的 情况 。 在 这 里 ， 除 可 以 测 得 该 混合 物 试 样 的 量 测 矢量 y (包括 矢量 
的 方向 和 长 度 ) 外 ， 还 可 得 到 等 测 物 的 标准 光谱 x, 的 形状 〈 即 标准 组 分 光谱 矢量 的 方向 )， 
而 xi 在 量 测 矢量 ”中 的 贡献 〈 即 标准 组 分 光谱 矢量 的 长 度 ) 应 由 ci 来 确定 ， 这 种 情况 的 几 
何 意义 可 由 图 6-35 来 表 出 。 





























" y 
T" T 
s 
€ ci ci XI 
于 了 不 目 待 测 物 的 浓度 的 不 同 未 知 背景 干扰 庶 的 矢量 示意 图 
图 中 ci，c1，c1 分 别 表示 不 同 的 待 测 物 的 浓度 ，r，r ，r” 分 别 表示 由 此 而 








得 的 不 同 的 未 知 背景 干扰 光谱 矢量 ， 它 们 都 可 以 与 xi 很 好 地 拟 合 混合 物 光 谱 y 


从 图 6-35 可 以 看 出 ， 由 于 背景 干扰 量 测 谱 > 和 cj PNRM, cMr 又 互 为 函数 ， 对 应 
不 同 的 ci 就 可 得 到 不 同 的 背景 干扰 量 测 谱 z， 只 要 可 保持 c1 和 + 和 皆 为 非 负 值 就 都 是 可 能 解 。 
值得 指出 的 是 ， 在 这 种 情况 下 ， 任 何 拟 合 技术 都 是 没有 意义 的 ， 拟 合 度 的 好 坏 不 能 成 为 评价 
结果 的 标准 。 图 6-36 给 出 了 一 个 这 种 情况 的 具体 计算 机 模拟 例子 。 从 图 6-36 可 以 看 出 ， 随 
着 ci 的 变 人 化， 背景 干扰 谱 也 在 不 断 地 变化 ， 注 意 ， 用 这 样 不 同 的 cl 和 7 都 可 以 把 混合 试 样 
的 量 测 矢 量 y 拟 合 好 。 

如 果 采 用 矩阵 类 型 的 数据 ， 情 况 将 发 生 显著 的 变化 。 对 于 灰色 分 析 体 系 ， 和 抢 阵 校正 的 数 
学 模型 可 由 下 式 表示 
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GED 由 图 6-35 所 示 最 简单 灰色 体系 的 计算 机 模拟 示例 
其 中 虚线 代表 背景 光谱 








Y—c;X; | C2 X5 | | Cp X n | R | E 


XB. Y 表示 混合 物 的 量 测 和 矩阵 〈 可 为 二 维 荧 光 光 谱 或 色谱 联 用 仪 产 生 的 二 维 数据 )， 
X; (i 二 1,2,…,n) 为 待 测 组 分 纯 物 种 的 量 测 和 矩阵 。 值 得 提出 的 是 ， 像 XiG=1,2,…,2) 这 样 
的 和 矩阵， 一 般 为 双 线 性 和 矩阵， 即 它们 可 由 两 个 矢量 的 外 积 表 示 








X; —s,ci 


从 此 式 可 知 ，X; 的 秩 为 1， 二 维 区 光 光 谱 或 色谱 联 用 仪 产 生 的 二 维 数据 均 可 满足 这 一 条 件 。 
和 矩阵 校正 的 数学 模型 中 五 为 量 测 误差 矩阵 ， 一 般 仍 假设 为 服从 正 态 分 布 的 等 方差 日 噪声 误 
差 ; n 为 混合 体系 中 的 待 测 物 种 数 ，c，(i 二 1，2,，…，n) 为 未 知 待 估 参数 ， 一 般 可 看 作 相 
对 浓度 ; R 为 未 知 背 景 干扰 矩阵 ， 它 亦 可 以 是 多 个 未 知 干扰 物 的 量 测 和 矩阵 的 线性 加 合 ， 即 











R —diBi -F dsB» 十 … 十 Cn， 


式 中 , B;G 王 1,2,…，7) 为 干扰 纯 物 质 的 量 测 矩 阵 ; m 为 干扰 物种 数 ; di (i 二 1,2,…， 
m) 为 干扰 物 的 相对 浓度 。 注 意 到 双 线 性 矩阵 的 特点 ， 即 纯 物 质 的 量 测 和 矩阵 的 秩 为 1， 而 背 
景 干扰 量 测 和 矩阵 的 秩 就 代表 它 的 组 分 数 ， 也 就 是 这 一 特点 ， 使 得 灰色 分 析 体 系 的 矩阵 校正 方 
法 成 为 近年 来 分 析 化 学 计量 学 研究 的 热点 和 难点 ， 并 已 取得 较 大 的 成 果 ， 其 中 著名 的 有 广义 
秩 消失 因子 分 析 法 〈GRAFA) 、 残 差 双 线性 分 解法 (RBL) 和 约束 背景 双 线 性 分 解法 CCB- 
BL)， 从 纯 数 学 的 角度 看 ， 因 为 二 维 数据 提供 了 和 矩阵 秩 的 新 信息 ， 这 些 方法 一 般 缘 可 给 出 有 
物理 意义 的 唯一 解 。 当 然 ， 在 实际 应 用 中 ， 还 存在 一 些 具体 困难 。 本 节 将 对 这 些 方法 的 基本 
思路 和 基本 算法 做 出 较 详细 的 介绍 。 

(一 ) 秩 消 失 因 子 分 析 法 

秩 消失 因子 分 析 法 首先 由 C.-N. Ho. Christian 和 Davidson 于 1978 年 针对 二 维 获 光谱 
的 定量 分 析 而 提出 [03~105] 。 该 方法 的 基本 原理 就 是 利用 纯 物 种 二 维 荧光 光谱 是 一 个 双 线 性 
矩阵 ， 且 其 秩 为 1 的 特点 来 进行 的 。 
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【基本 思路 】 

设 已 测 得 被 分 析 物 的 纯 物 种 二 维 谱 ， 将 其 作为 标准 ， 进 而 对 含 未 知 干扰 的 混合 体系 的 二 
维 效 光 光 谱 进 行 消去 该 标准 的 运算 。 设 未 进行 消去 运算 前 ， 含 未知 干 扰 的 混合 体系 的 量 测 拢 
阵 的 秩 为 &， 那 么 ， 当 被 消去 的 标准 正好 等 于 其 存在 于 混合 体系 中 的 该 物种 的 浓度 大 小 时 ， 
此 时 未 知 干扰 的 混合 体系 的 量 测 矩阵 的 秩 就 会 减少 1 而 成 为 (一 1)， 据 此 即 可 对 该 被 分 析 
物 进 行 定量 。 

设 含 未 知 干扰 的 混合 体系 的 量 测 矩 阵 为 Y， 为 不 失 一 般 性 ， 设 本 章 论 及 的 灰色 分 析 体 
系 ， 可 简化 为 如 下 的 数学 模型 





Y—ciXi +R +E =c; piq} +R +E 


即 先 只 考虑 其 中 一 个 感 兴趣 的 分 析 物 ， 而 把 其 他 分 析 物 都 归于 未 知 干扰 。 这 样 的 简化 不 影响 
一 般 性 的 原因 是 可 连续 地 将 不 同 的 分 析 物 当成 待 分 析 物 ， 直 至 所 有 的 分 析 物 都 被 测定 。 式 
中 ，Xi1 即 为 该 纯 物 种 双 线 性 的 量 测 和 矩阵，Pi 为 其 纯 物 质 效 光 激 发 谱 〈 对 于 色谱 联 用 仪器 则 
为 纯 物 种 色谱 ); qi 为 其 纯 物 质 奖 光 发 射 谱 (对 于 色谱 联 用 仪器 则 为 纯 物 种 的 相应 光谱 ); 
ci 为 相对 浓度 ; R 为 未 知 背 景 干扰 ， 与 式 Y 二 cj X, HeX Hee, Xn RHE 不 同 的 地 方 
是 在 此 处 的 未 知 背 景 干扰 是 把 其 他 分 析 物 亦 加 入 未 知 干扰 物 的 量 测 和 矩阵 R 而 成 ; E 为 二 维 
数据 阵 的 量 测 误差 和 矩阵， 一 般 仍 设 为 白 品 声 。 
首先 ， 考 察 一 下 秩 消 失 因 子 分 析 法 的 一 个 最 主要 方程 

















F =Y — BXs 
XB. Xs 为 定性 已 知 的 与 和 ;相对 应 的 待 测 分 析 物 的 标准 物 量 测 和 矩阵 ， 它 可 以 表示 为 


Xs=cspsgs 





为 以 后 讨论 方便 ， 还 假设 ps 和 qs 分 别 是 标准 化 的 矢量 ， 即 满足 2p& 二 1 S1, 2, e, 
w), CEE w 为 激发 谱 的 量 测 波长 点 数 或 色谱 保留 时 间 点 数 ) Mgl (1 二 1，2,…， 
r)，( 在 此 > 为 发 射 谱 的 量 测 波长 点 数 或 与 色谱 联 用 的 相应 光谱 的 量 测 波长 点 数 );， 秩 消失 因 
子 分 析 法 的 主要 目的 就 在 于 找到 8， 即 找到 8=ci/cs， 从 而 使 此 时 抢 阵 下 的 秩 比 原 和 矩阵 Y 
的 秩 少 1。 这 也 就 是 秩 消 失 因 子 分 析 法 的 主要 思路 。 因 当时 计算 矩阵 秩 的 变化 还 不 十 分 容 
易 ， 故 C. -N. Ho. Christian 和 Davidson 采用 了 一 种 迭代 方法 来 实现 这 一 计算 的 。 

【基本 算法 】 

该 法 的 算法 由 以 下 步骤 组 成 。 

(1) 对 立 和 矩阵 进行 主 成 分 分 析 〈 即 奇异 值 分 解 ) 





























Y —-USV' 


式 中 , U 和 矩阵 收集 了 立 和 矩阵 的 所 有 非 噪 声 左 特征 矢量 ;W: 抢 阵 收集 了 YY 和 抢 阵 的 所 有 非 噪 
声 的 右 特 征 矢 量 。 一 般 说 来 , 了 矩阵 中 所 含 的 化 学 物种 数 为 多 少 就 得 收集 多 少 个 特征 矢量 。 
如 设 Y 矩阵 中 所 含 的 化 学 物种 数 为 x， 则 UU 和 VV 分别 为 (w Xn) KA (n Xr) 阶 矩 阵 。 
Y 矩阵 的 阶 数 是 由 激发 谱 的 量 测 波 长 点 数 Co 和 发 射 谱 的 量 测 波长 点 数 (xr) 来 决定 的 ， 
所 以 ， 其 维 数 (w 或 r) 一 般 都 要 大 大 地 大 于 Y 矩阵 中 所 含 的 化 学 物种 数 n。 

(2) 由 式 ==Y 一 BXs EAW F ERE p 的 函数 ， 所 以 ， 秩 消失 因子 分 析 法 的 秩 运 算是 
针对 五 矩阵 来 进行 的 。 然 而 ， 因 玉 矩阵 一 般 都 比较 大 ， 故 由 C.-N. Ho, Christian 和 David- 
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son 提出 的 秩 消失 法 实际 上 是 针对 下 述 两 矩阵 来 进行 的 。 


G; —V'F'FV 


G —U'FF'U 


这 样 ， 就 可 将 矩阵 下 的 维 数 从 w CX ro 降 到 与 Y 矩阵 中 所 含 的 化 学 物种 数 (n) 一 样 大 ， 
从 而 大 大 地 减少 了 计算 量 。 这 样 进行 简化 是 有 理由 的 ， 因 为 U 与 Y 的 列 矢 量 张 成 同一 线性 
空间 ， 而 V' 与 Y 的 行 矢量 张 成 同一 线性 空间 ， 这样 的 主 成 分 投影 降低 了 数据 的 维 数 ， 但 却 
不 丢失 任何 有 用 的 信息 。 
(3) 变化 式 =Y 一 BXs 中 的 值 ， 变 化 一 般 是 从 零 开 始 向 正方 向 变化 。 对 不 同 的 B 计 
$E Gi; (GR G;) 和 矩阵 的 特征 值 ， 一 般 说 来 当 其 中 最 小 的 那个 特征 值 达到 极 小 〈 亦 即 靠近 零 ) 
时 ， 此 时 对 应 的 8 值 就 是 要 求 的 值 。 
(4) 因为 6 二 c1/cs， 而 cs 是 标准 物 的 量 测 矩 阵 的 相对 浓度 ， 是 已 知 的 ， 所 以 ,ci 就 等 
T gs. 



































一 方法 巧妙 地 利用 了 二 维 数据 的 秩 的 信息 ， 为 分 析 化 学 中 灰色 体系 的 直接 快速 分 析 
提供 了 一 条 新 的 途径 ， 受 到 了 化 学 计量 学 家 们 的 普遍 关注 ， 并 将 其 拓 广 至 联 用 色谱 二 维 数据 
的 解析 M0%.1%] 。 利 用 该 法 求 得 8 的 过 程 可 从 图 6-37 清楚 看 出 ， 随 着 B 的 不 断 增 大 ， 第 二 个 
特征 值 正 好 在 c1 /cs 点 处 出 现 一 个 极 小 值 ， 说 明 在 此 点 上 ， 和 矩阵 的 秩 为 1， 然 而 ， 随 着 8 的 
继续 增 大 ， 第 二 个 特征 值 又 回升 ， 说明 此 时 矩阵 的 秩 叉 回复 到 2。 
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作为 B 的 函数 的 第 一 特征 值 (4,) FREE — EHE (m) 变化 图 
该 体系 为 两 组 分 分 析 体系 ， 其 中 一 个 为 分 析 物 ， 另 一 个 为 未 知 干扰 物 








C. -N. Ho. Christian 和 Davidson 提出 秩 消 失 法 的 同时 ， 还 提出 了 Bessel 不 等 式 的 概 
念 ， 以 检验 在 含 未 知 干扰 的 混合 体系 的 量 测 矩阵 中 是 否 确 实 含 有 待 测 标准 物 ， 似 有 必要 在 
本 节 也 做 出 介绍 。 

因为 UU 与 Y 的 列 矢量 张 成 同一 线性 空间 ， 所 以 ，ps 应 可 由 U 矩阵 的 列 矢 量 线性 表 出 ， 
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ps Xa,u, (k—1,.2,*.n) 


同 理 ， 因 为 V 与 Y 的 行 撩 量 张 成 同一 线性 空间 ， 所 以 ，qs n] Hi V 矩阵 的 列 矢量 线性 


表 出 ， 





亦 即 


qs= bv, (R —1,2,.:.n) 





AU 与 V 都 是 正 交 归 一 化 矩阵 ， 即 有 UU==IT fl V'V—I sr. Br 





CQ =u‘ Ps (Ck =1,2,* sn) 


b, —viQs (b — 1.2.7.) 


如 果 把 ck (—l.2,-.n) 和 bk (k—1,2,-,n) 写成 矢量 的 形式 ， 则 有 


a —U'ps 
及 
b —V'qs 
于 是 有 
Xa? —a'a—p&UU'ps k=l, (n) 


=psps 


=) p4 =1 (i=1, 2, =, w) 








在 上 式 推 导 的 第 三 步 中 ， 利 用 了 投影 矩阵 UU! 的 特性 ， 即 UU'ps 王 ps， 这 是 因为 U' 就 是 U 
WJX, BBEUU'U—U. 3X E. UU' 就 构成 了 一 个 包含 ps 矢量 的 投影 矩阵 〈 参 见 第 十 一 


章 ) 。 


再 利 月 

















同时 因为 学 ps 二 1 的 条 件 ， 所 以 ， 有 之 ax 一 1 的 结论 成 立 。 同 理 ， 因 为 


Mb —b!b-—qLiVV!'qa (b —1,. n) 
—4q54s5 
= ge =] (i=1,.,r) 


Xq? =1 G =l, r) 的 条 件 ， 414 Xl 的 结论 成 立 。 





也 就 是 利用 了 式 之 以 二 1 和 204 二 1， 得 到 了 所 谓 的 Bessel 不 等 式 。 


(»alysti 
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或 


(>) 二 1 





在 此 ,将 4 二 qs 二 1 改 成 上 述 两 不 等 式 ， 其 理由 在于 U HV 只 是 取 了 主 成 分 ， 没 有 将 
量 测 误差 考虑 在 内 。 所 以 ， 在 化 学 量 测 的 实际 情况 中 ， 成 立 的 只 是 不 等 式 ， 因 为 在 实际 情况 
H, UUtps 只 能 近似 地 等 于 ps. 

根据 以 上 讨论 ， 可 以 得 出 这 样 的 结论 ， 即 ai) 或 (M02) 越 是 靠近 1， 就 说 明 Xs 
的 确 存在 于 含 未 知 干扰 的 样本 量 测 矩阵 Y 之 中 。 利 用 Besse 不 等 式 ， 可 检验 在 含 未 知 干扰 
的 混合 体系 的 量 测 和 矩阵 Y 中 是 否 确实 含有 待 测 标 准 物 。 

因 以 上 讨论 的 秩 消 失 因 子 分 析 法 实质 上 是 一 种 需要 多 次 或 迭代 的 算法 ， 故 Lorber 对 此 
方法 作 了 改进 ， 他 在 引入 奇异 值 分 解 算 法 的 基础 上 ,提出 一 种 非 迭 代 式 的 秩 消 失 因 子 分 析 
法 。Lorber 的 非 迁 代 式 的 秩 消失 因子 分 析 法 0505 的 主要 思路 就 是 将 以 上 讨论 的 秩 消失 因子 分 
析 法 转化 成 为 一 个 特征 方程 的 问题 ， 即 将 式 F ==Y 一 BXs 转化 成 为 以 下 的 特征 方程 


X*z=Az 


的 形式 ， 从 而 使 秩 消失 因子 分 析 法 的 计算 变 得 简单 明了 。 因 Lorber AJE ER Zr iE Sc Es E 3E 
是 将 要 介绍 的 广义 秩 消失 因子 分 析 法 的 第 一 种 情况 ， 所 以 ， 此 方法 在 此 暂 不 做 介绍 ， 留 到 下 
一 节 一 并 讨论 。 

(二 ) 广义 秩 消失 因子 分 析 法 

广义 秩 消 失 因 子 分 析 法 由 Sanchez 和 Kowalski 于 1986 年 提出 [109] ， 其 主要 思路 是 将 秩 
消失 因子 的 计算 问题 转变 为 广义 特征 方程 求解 的 问题 ， 从 而 使 得 秩 消失 因子 分 析 法 不 再 局 限 
于 一 次 只 能 测 一 个 待 测 分 析 物 的 约束 ， 此 外 ， 该 法 还 可 拓 广 至 其 他 类 型 的 情况 。 下 面 将 对 该 
法 做 出 详细 介绍 。 

l. 广义 秩 消失 因子 分 析 法 的 基本 公式 和 不 同 的 四 种 类 型 

任 一 双 线 性 数据 矩阵 Y 都 能 表示 为 它 含 的 ?2 个 纯 物 种 双 线 性 数据 矩阵 X; 的 线性 组 合 ， 即 


































































































Y—2AiX, | À2X» | abd | ÀnX5 | E 





—Aipiqi-FAspeqo tcs -ÀSpaqs 十 五 


a PAQ' 
在 此 
卫 一 LDi， Pos: có Pa] 

A1 0 0 0 0 
0 Aa 0 0 0 
人 一 | 0 0 Àa 0 0 
0 0 0 Aqu 0 
0 0 0 0 Àn 
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一 般 说 来 ， 对 于 秩 消 失 因 子 分 析 法 存在 两 个 和 矩阵， 一 个 为 上 式 表 出 的 含 未 知 干扰 的 Y 数 
据 矩 阵 ， 另 一 个 则 是 含 定 性 已 知 的 标准 分 析 物 的 X 和 矩阵 ， 它 也 可 表示 为 


X —61Xi EF &2Xo b con F 6,X, HE 





= piq) t éspeqo - c F6, paq, HE 
= PéQ' 
在 此 
P-—p;. Pos: cU Pa] 


£i Q ss 0 0 Ss O 


0 £p … 0 0 e 0 














E= 0 0 Ea 0 0 
0 0 0 égy 0 
0 0 0 0 En 

qi 

q? 

Q'— 
Qi 
qn 


值得 提出 的 是 ， 由 上 述 两 式 示 出 的 矩阵 Y 和 XX 似乎 完全 一 样 ， 可 实际 上 却 是 不 同 的 ， 
它们 不 同 的 地 方 在 于 和 ME., Sanchez 和 Kowalski 将 它们 分 成 四 种 不 同情 况 来 分 别处 理 ， 为 
了 保持 该 方法 的 原始 性 ， 分 别 对 这 四 种 情况 进行 讨论 ， 必 要 时 对 它们 加 以 相应 的 说 明 。 

(1) 在 定性 已 知 的 标准 分 析 物 的 矩阵 中 只 有 一 种 物质 ， 而 且 ， 该 物质 是 含 未 知 干 扰 
的 样本 数据 和 矩阵 码 中 的 一 个 ， 即 
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Diag(£) —(£,. 0. =, 0) 
Diag(A) = Qi. A2; c. An) (n> 1) 
这 种 情况 也 就 是 在 前 一 节 中 讨论 的 那 种 情况 。 
(2) 在 定性 已 知 的 标准 分 析 物 的 矩阵 中 含有 几 种 物质 ， 而 且 ， 这 些 物种 都 存在 于 样 
本 数据 和 矩阵 Y 中 ， 即 








Diag(£) = (£1, tts Es Qu vet s 0) 
Diag) — (i. A2, t. An) >m) 
这 种 情况 也 就 是 在 本 书 中 定义 的 灰色 分 析 体系 的 一 般 情况 。 


(3) 在 定性 已 知 的 标准 分 析 物 的 XX 矩阵 中 含有 ?2 种 物质 ， 但 是 ， 这 些 物质 不 一 定 都 存 
在 于 样本 数据 矩阵 Y 中 ， 即 








Diag(£) 一 (6l， E £y Uta Ên) 
Diag(A) — (i. t Ams 0, ct Om — n) 





这 种 情况 实质 上 相当 于 在 本 书 中 定义 的 白色 分 析 体 系 的 一 种 特殊 情况 ， 即 校正 矩阵 中 已 
包含 了 所 有 待 测 物 的 信息 ， 与 在 白色 分 析 体 系 中 讨论 的 情况 的 不 同 之 点 在 于 此 时 还 多 包含 了 
其 他 化 学 物质 的 标准 谱 信息 ， 且 这 些 物质 在 样本 量 测 抢 阵 中 不 存在 ， 此 时 原则 上 是 可 采用 矢 
量 数据 的 校正 方法 来 直接 求解 的 ， 文献 [110—112] 提供 了 几 种 可 能 解法 ， 有 兴趣 的 读者 可 
参阅 这 些 文献 。 值 得 提出 的 是 ， 对 于 这 样 的 情况 ， 如 果 简 单 采 用 多 元 线性 回归 的 方法 来 求 
解 ， 会 出 现 负 浓度 值 的 问题 ， 从 而 使 最 小 二 乘 估计 结果 不 可 靠 。 一 般 说 来 ， 如 果 此 时 采用 带 
约束 回归 分 析 方 法 ， 即 约束 所 估 参 数值 〈 在 多 元 校正 中 即 为 化 学 物种 的 浓度 值 ) 不 为 负数 ， 
这 样 即 可 直接 求 出 Ais tns Amd) 来 ,无 须 采 用 本 节 将 要 介绍 的 须 采 用 二 维 数据 的 广义 特 
征 问题 的 求解 方法 ， 亦 即 采用 广义 秩 消失 因子 分 析 法 来 解决 此 类 问题 。 

(4) EX ERRESA Rk 种 物质 但是， 这 些 物种 不 一 定 都 存在 于 数据 矩阵 了 中 ， 而 且 ， 
TET S AB Ee Y 中 所 含 的 物种 也 不 一 定 都 存在 于 数据 矩阵 X 中 ， 即 




































































Diag(£) 一 (El ， tts ens $t es. 0, dia 0) (b — n) 


Diag(A) —(0, =+, O, Ars “ts, Àn) (m >l) 


这 种 情况 ， 因 X 矩阵 本 身 还 包含 了 一 些 含 未 知 干 扰 样 本 中 不 存在 的 物质 ， 所 以 ， 很 难 
把 它 定义 为 前 三 种 情况 中 的 定性 已 知 的 标准 和 矩阵， 同时, Y 矩阵 亦 包 含 了 未 知 干扰 ， 所 以 ， 
它 实质 上 应 相当 于 在 本 书 中 定义 的 黑色 分 析 体 系 的 一 种 特殊 情况 。 值 得 指出 的 是 ，Sanchez 
和 Kowalski 提出 的 广义 秩 消失 因子 分 析 法 确 可 对 此 求解 ， 说 明 广 义 秩 消失 因子 分 析 法 实质 
上 是 一 种 黑色 分 析 体 系 的 解析 方法 ， 关 于 这 一 点 ， 将 在 讨论 广义 秩 消失 因子 分 析 法 的 具体 解 
法 中 给 出 必要 说 明 。 关 于 广义 秩 消失 因子 分 析 法 解析 黑色 分 析 体 系 的 具体 算法 ， 将 在 本 章 第 
五 节 详 细 介绍 。 

I iSc YS PAQ' 和 式 XX 室 PEQ'， 对 此 两 方程 同时 右 乘 8' B9] XX (Qo. nf 




















Pà —Y(Q0* fl P£—X(Q)0* 
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因为 和 6 都 是 对 角 和 矩阵 ， 其 矩阵 乘法 是 可 以 交换 的 ， 因 而 有 PMAE 王 PS ， 所 以 可 得 








Y(OOD+E 一 XCODTA 
S (09 = 二 Z， 则 广义 秩 消 失 因 子 分 析 法 的 主要 方程 可 变 为 
XZA =YZ£ (6-33) 


对 于 上 述 方程 ， 已 知 X 和 &， 而 且 也 测 得 了 了 Y， 所 以 要 求解 此 方程 ， 必 须 先 求 得 Z 和 4。 
由 方程 (6-33) 定义 的 问题 实质 上 就 相当 于 线性 代数 中 的 广义 特征 值 问 题 (参见 第 十 一 章 )。 
对 于 广义 特征 值 ， 目 前 只 能 用 QZ 算法 求解 XZ 和 YZ 都 是 方 阵 的 情况 HH， 所 以 ， 对 于 它 
们 的 求解 将 针对 不 同 的 情况 具体 进行 。 

2. 四 种 不 同类 型 的 算法 

(1) 广义 秩 消失 因子 分 析 法 对 第 一 种 情况 的 求解 方法 “ 首 匈 ， 对 样本 矩阵 Y 进行 主 成 分 
分 析 (奇异 值 分 解 )， 即 














Y =USV' 





式 中 , U 和 矩阵 收集 了 Y 矩阵 的 所 有 非 噪声 的 左 特征 矢量 ,Vt ERRET Y 和 矩阵 所 有 的 
非 噪声 的 右 特 征 矢量 。 一 般 说 来 , 了 矩阵 中 所 含 的 化 学 物种 数 为 多 少 就 得 收集 多 少 个 特征 矢 
A. WEY 矩阵 中 所 含 的 化 学 物种 数 为 nx， 则 U 和 VV 分 别 为 Gon) 阶 和 Oro WIERE. 
这 样 ， 式 (6-33) 可 变 为 
XZA =USV'ZE 


4 Z-—VS !Z* , 这样 ,2Z* 一 SVYIZ， 所 以 ， 上 式 可 变 为 





XVS !Z*A —USV'Z£ —USV'VS 1Z* £—UZ^ € 


上 述 推导 中 使 用 了 站 和 矩阵 的 正 交 性 质 ， 即 ViV= 工 ， 再 对 上 式 左 乘 U' 得 








U'XVS3Z*4A —U'UZ*£—Z*£ 
继续 对 上 式 右 乘 人 : ， 可 得 
U'XVSTZ* AT —Z*& ^ 


亦 即 








式 中 ，X —U'XVS 1， 从 上 式 可 以 看 出 ， 由 式 (6-33 表 出 的 广义 特征 值 问 题 被 转换 为 一 
般 特 征 值 问 题 ， 而 且 ，X* 和 矩阵 还 是 一 个 方 阵 。 对 于 第 一 种 情况 ，X 是 一 个 秩 为 1 的 矩阵 ， 
所 以 X* 也 是 一 个 秩 等 于 1 的 矩阵 。 对 于 一 个 秩 为 1 的 矩阵 ， 其 唯一 的 不 为 零 的 特征 值 就 是 
这 个 矩阵 的 迹 ， 如 果 记 QUipi 为 w， qiV yb. MIERE X * 的 迹 可 表示 为 














y — TraceCX * ) 
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= Trace(U' XVS ! ) 





同时 ， 注 意 到 名 !*'—y. IRE yS ENG y 就 是 那个 唯一 的 不 为 零 的 特征 值 ， 实 因 其 
余 的 7 均 因 &; (i 二 2,，…，n) 为 零 而 全 为 零 。 所 以 ， 求 得 > 后， 就 立即 可 以 求 出 ， 即 


Ai —&6/Y 


这 也 就 是 要 求 的 含 未 知 干扰 样本 中 的 待 测 物 的 相对 浓度 。 
值得 在 此 指出 的 是 ， 上 述 方法 也 就 是 Lorber 提出 的 非 迭 代 式 秩 消失 因子 分 析 法 号。 
(2) ESSE TUE TU VIENI AIRES 这 种 情况 与 第 一 种 情况 的 不 同 之 
点 就 在 于 校正 矩阵 包含 的 物种 数 ， 第 一 种 情况 只 会 一 种 物质 ， 而 第 二 种 情况 是 含 多 种 物质 。 
同样 利用 式 〈6-33)， 并 对 此 方程 的 两 边 右 乘 和 1， 可 得 














XZM 1 一 XZ —YZ&A ! =YZß 


即 
XZ —YZp 
将 式 Y=USV' 代入 上 式 ， 得 
XZ —USV'Zp 
^ Z-VS- 这 样 ，Z 一 SVIZ ， 所 以 ， 上 式 可 变 为 


XVS-Z' —USV'Zg 一 USVIVS-IZ p —UZ^ p 
继 对 此 式 两 边 左 乘 U'. 得 


U'XVS !Z* —Z*g 














注意 到 由 式 U'XVS !Z* Pa a E 值 问题 ， 与 第 一 种 情况 不 同 的 是 ， 
在 此 存在 m 个 而 不 只 是 一 个 非 零 特征 值 ， 即 (B1，…，B )， 为 了 确定 哪 一 个 特征 值 对 应 哪 
一 个 化 学 物质 ， 在 此 需要 用 到 相应 的 特征 向 量 。 利 用 所 得 的 特征 向 量 ， 可 求 出 相应 的 p; 和 
q;， 即 相应 的 激发 与 发 射 光谱 ， 因 为 














Z* —SV'Z =SV' (QU 


—(VSUZ*)! 


求 得 Q! 后 ， 不 难 求 出 相应 的 PA K, DIY —PAQ'—USV!. Bibl 





Pà —Y(Q) =USV'VS Z * —UZ 


从 上 述 讨论 中 可 以 看 出 ,广义 秩 消失 因子 分 析 法 可 直接 得 到 相应 的 激发 与 发 射 光 谱 ， 即 
具有 分 辨 的 功效 ， 关 于 这 一 点 ， 将 在 第 五 草 给 出 详细 讨论 。 另 外 ， 因 为 总 -=8， 所 以 求 得 
T 8= CB, EE, Bs. 也 就 相当 于 求 得 了 一 系列 的 相对 浓度 的 比值 3 E. E, Am): 
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因为 Gic. En) ABA. BIA. Qis s Amd) 就 很 容易 求 出 了 

(3) 广义 秩 消失 因子 分 析 法 对 第 三 种 情况 的 求解 方法 “这 种 情况 与 第 二 种 情况 的 不 同 之 
点 就 在 于 校正 矩阵 包含 的 物种 数 大 于 样本 数据 矩阵 包含 的 物种 数 ， 此 时 如 果 将 和 和 Y 的 位 
置 对 换 一 下 ， 即 此 时 是 对 X 而 不 是 对 Y 进行 奇异 值 分 解 ， 继 用 第 二 种 情况 的 解法 来 解 第 三 
种 情况 ， 即 可 求 出 Y 和 矩阵 各 组 分 的 相对 浓度 。 因 以 下 所 有 求解 的 步骤 都 与 第 二 种 情况 一 样 
在 此 不 再 歼 述 。 

(4) 广义 秩 消失 因子 分 析 法 对 第 四 种 情况 的 求解 方法 ”这 种 情况 是 一 种 特殊 情况 。 校 正 
和 矩阵 包含 的 物种 没 全 被 样本 矩阵 所 含 物种 包含 ， 反 之 ， M si ib ae Mud 
阵 所 含 物种 包含 ， 与 第 二 种 情况 和 第 三 种 情况 都 不 同 。 为 使 一 个 矩阵 所 含 物 种 能 包含 另 一 
和 矩阵 的 全 部 物种 ， 采 用 的 方法 是 将 校正 矩阵 X 和 样本 和 矩阵 Y 相 加 ， 以 得 n e 
这 样 ， 这 一 新 得 到 的 矩阵 M 所 含 物种 既 包 含 了 X 矩阵 的 全 部 物种 义 包 含 了 Y 矩阵 的 全 部 物 
种 ， 用 第 二 种 情况 中 介绍 的 方法 即 可 求解 。 具 体 解法 如 下 。 
D M=X+Y. 
© XHBEE M 进行 主 成 分 分 解 












































M =UmS MV4 


© 构造 以 M EREN ERAI REES E, BU 





UMYV MS m Zm: —Zw- p 





QD 求 得 Zm: 后 ， 再 分 别 用 下 式 求 得 P 和 0Q: 
P(&£-- A) =UmZM: 


Q' —(uSM Zu: D* 


对 于 广义 秩 消失 因子 分 析 法 用 于 灰色 分 析 体 系 的 解析 ， 第 一 种 和 第 二 种 情况 最 重要 ， 其 
他 两 种 情况 只 是 第 二 种 情况 的 一 种 拓展 。 男 外 ， ELANIN, 在 具体 求解 之 前 ， 都 有 必 
要 进行 一 些 必要 的 检验 ， 即 检验 要 求 的 分 析 物 是 否 确实 存在 于 样本 矩阵 之 中 ， 在 此 ， 将 介绍 
一 种 基于 投影 矩阵 的 简便 方法 。 当 然 ， 用 前 一 节 讨 论 的 Bessel 不 等 式 同 样 也 可 进行 类 似 检验 。 

在 讨论 灰色 分 析 体 系 的 基于 矢量 校正 的 算法 中 ， 曾 多 次 采用 过 投影 矩阵 (参见 第 十 一 
T) 来 进行 运算 ， 这 是 因为 投影 矩阵 具有 以 下 很 有 用 的 性 质 ， 即 























XX `x; =x; 





式 中 ,和 =[Lxzl，…，xi，…，x]。 上 式 的 物理 意义 为 : 如 果 x; 包 含 于 X 之 中 ， 则 由 
X 构成 的 投影 矩阵 XX+ 作 用 于 x; ZE, x 将 不 变 ， 这 样 ， 就 可 以 采用 投影 的 办 法 来 检验 
某 一 物种 x; 是 否 确实 包含 于 某 一 混合 物 的 量 测 和 矩阵 X 之 中 。 投 影 也 可 以 通过 下 式 进 行 ， 























UU'x; =x; 


式 中 , U JERE X JEER SEA AE BZCEAEI] SEABPE. BI 








X —USV: 





式 UU'x; 二 x; 之 所 以 成 立 ， 是 因为 
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XXT=USV'(USV')T 一 USVIVS ! U' —UU' 





在 此 利用 了 U 矩阵 的 正 交 性 质 ， 即 UU'U 二 UU， 也 就 是 说 ，U' 就 是 U 矩阵 的 广义 送 。 上 
式 说 明 ， 任 一 与 和 和 抢 阵 张 成 同一 线性 空间 或 包含 了 X 矩阵 的 矩阵 来 进行 投影 操作 ， 其 效果 
与 直接 由 X 和 矩阵 构成 的 投影 矩阵 的 效果 一 样 。 下 面 还 将 看 到 这 一 性 质 可 直接 拓 广 至 对 双 线 
性 矩阵 进行 投影 的 情况 。 

ibx-—PsQ'. H X—USV', WE 


















































UU'XVV' —X 





这 是 因为 , UU'X —UU'P£Q' —P£Q' ， 在 此 利用 了 UU'P 王 PP， KKU 5 P 构成 的 是 同一 个 线 
性 空间 ; 同 理 ，XVV' 二 PEQ'VV' 一 PEQ1， 这 是 因为 V 与 81 构成 的 是 同一 个 线性 空间 。 结 合 
以 上 讨论 的 两 点 ， 可 得 


UU'XVV' = (UU'P)E(Q'VV') =PEQ' =X 





广义 秩 消失 因子 分 析 法 提出 后 ， 被 广泛 地 应 用 于 二 维 荧光 光谱 数据 和 液 相 色 谱 与 光谱 联 
用 数据 的 定量 分 析 [151181 。 

(三 ) 残 差 双 线 性 分 解法 

残 差 双 线性 分 解法 由 Öhman, Geladi 和 Wold 共同 提出 [9,13] ， 其 基本 思路 仍 是 利用 
双 线 性 纯 组 分 和 矩阵 秩 为 一 的 基本 原理 ， 先 是 把 含 未 知 干扰 的 样本 矩阵 按 式 了 三 cliXIi 十 
CoXa +e +e, X, - R EE 所 示 那 样 分 成 两 部 分 ,一 部 分 为 待 测 的 分 析 物 CX;. il. 
2，…，n)， 男 一 部 分 为 未 知 干 扰 背 景 R， 继 交替 对 数据 进行 两 步 分 析 ， 首 先 在 固定 背景 的 
基础 上 对 分 析 物 进行 校正 ， 然 后 固定 得 到 校正 的 分 析 物 相对 浓度 ， 对 干扰 背景 进行 主 成 分 分 
解 ， 不 断交 蔡 进 行 上 述 两 个 过 程 的 欠 代 ， 直 至 背景 干扰 的 分 解 可 在 已 知 主 成 分 数 的 基础 上 完 
全 分 解 ， 且 校正 的 分 析 物 相对 浓度 达到 收敛 。 这 一 算法 的 提出 ， 为 灰色 分 析 体 系 的 直接 解析 
又 提供 了 一 种 新 思路 ， 在 本 节 将 对 这 一 算法 给 出 详细 的 介绍 。 

XP XY-—cXicco;Xo doc, X, -RH-E 所 示 的 灰色 分 析 体 系数 学 模型 ， 如 直接 采 
用 第 二 节 所 述 方法 进行 校正 的 话 ， 由 于 干扰 背景 矩阵 R 的 存在 ， 所 得 校正 结果 必然 是 不 佳 
的 ， 然 而 如 果 利 用 双 线 性 纯 组 分 矩阵 秩 为 一 的 条 件 ， 经 过 对 样本 和 矩阵 的 秩 分 析 ， 就 可 预先 知 
道 该 含 未 知 干扰 的 样本 天 阵 中 含有 多 少 物 种 ， 从 而 也 可 算得 在 刃 抢 阵 中 所 含 的 物种 数 。 尺 
矩阵 中 所 含 的 物种 数 (或 称 R 矩阵 的 主 成 分 数 )， 是 一 个 非常 重要 的 信息 ， 也 就 是 有 了 这 样 
a 个 重要 信息 ， 才 使 得 灰色 分 析 体 系 的 唯一 解 成 为 可 能 。 残 差 双 线性 分 解法 的 目标 就 在 

于 ， 在 给 定 的 含 未 知 和 干扰 样本 矩阵 Y， 校 正和 矩阵 Xi;G =1, s n), URES TF R 矩阵 
rH Br RR m 的 前 提 下 ， 正 确 估计 式 中 的 c;G 王 1，…，7)。 

残 差 双 线 性 分 解 的 基本 算法 ， 按 以 下 步骤 进行 。 

(1) EE X: (i =1, t n) 对 样本 矩阵 Y HITRE, e G —1. non) 

(2) 对 所 得 Qa —c(? X, c1? Xo M Ec X0 进行 主 成 分 分 解 ， 并 取 前 m 个 主 成 分 构 
RER FRERE, BRO —UOVO', EEU fü VO S 3E A 2T PEU m 个 因子 得 分 与 因 
子 荷载 。 

G) F k=1, 2, =, HÍT FIRER. 

(Di A Qqv—UuOvoOou, itl X;G 二 1…n) 来 对 Y-UPVVO) ETRE, c 
(一 1，…，7)。 

Q 对 Y—c(? Xi HPX +t P X) 进行 主 成 分 分 解 ， 并 取 前 m. 个 主 成 分 构成 
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Ha FREE, BU RCT*D—UCUDyCtbt, fp UC DP qu yn dE o 2 EEBU m 个 因子 
得 分 与 因子 荷载 。 

图 计算 YH Xite Xote tX, UCHOV) 的 方差 ， 如 果 它 们 大 于 量 
测 误差 方差 则 转向 巴 继 续 欠 代 ， 和 否则 ， 停 止 迭 代 。 

在 此 值得 提出 的 是 ， 以 上 算法 只 能 说 是 残 差 双 线 性 分 解法 的 基本 算法 ， 其 原始 算法 中 的 

一 个 加 速 过 程 在 本 节 中 没有 介绍 。 该 加 速 过 程 昌 有 一 定 功效 ， 但 却 有 失 烦 琐 和 干扰 对 主要 算 
法 的 理解 ， 所 以 在 此 省 略 ， 有 兴趣 的 读者 可 直接 参阅 文献 [119]. 

A^ 对 于 第 一 步 和 迭代 过 程 中 的 第 四 步 ， 也 没有 给 出 具体 的 方法 ， 原 则 上 ， 简 单 地 采 
用 第 二 章 中 介绍 的 直接 校正 方法 (HU MLR 方法 ) 来 计算 就 可 以 了 。 当 然 用 PLS 方法 也 是 可 
行 的 ， 在 残 差 双 线 性 分 解法 原始 文献 中 就 是 采用 PLS 来 进行 校正 的 ， 有 兴趣 的 读者 可 直接 参阅 文 
献 [119]. 

Öhman, Geladi 和 Wold 将 上 述 讨论 的 残 差 双 线 性 分 解法 用 于 联 用 色谱 (HPLC-DAD) 
数据 的 解析 ， 并 与 广义 秩 消失 因子 分 析 法 进行 了 比较 研究 ， 所 得 结果 示 于 表 6-12。 

值得 提出 的 是 ， 在 残 差 双 线 性 分 解法 的 原始 文献 中 ， 编 者 还 对 算法 中 第 三 步 的 迭代 过 
的 收敛 给 出 了 一 个 证 明 ， 该 证 明 对 此 法 的 理解 很 有 帮助 ， 所 以 ， 也 将 在 下 面 给 出 介绍 。 

EEZP KRR ER, KIE cE GS, e na), UP MVO, 每 一 次 更 新 就 
HATKE, AE, A 


| Y— Zc OX 一 DJ 人 HDYR+Dt | < | Yy—Xcf P"X,;—Uoyot | 





















































在 此 给 出 证 明 如 下 。 
BI cU G=1, =, n) 是 从 对 〈Y 一 UV 进行 基于 二 乘 最 优 意义 的 校正 所 
得 (在 这 一 点 上 ，MLR 和 PLS 是 等 同 的 ) ， 所 以 ， 有 











| Y— Bex; —U o» yoot | < | Y— XX; —p o? yoot | 





RP, t GS1, e, n) 为 任 一 其 他 可 能 非 最 小 二 乘 意义 的 估计 或 包括 ch 0 G= 
1，…，7) 在 内 的 任意 估计 。 另 一 方面 ，D04+DYCU+TD 为 QY—2Xc(? Xi0. 的 主 成 分 分 解 所 
得 的 前 m 个 因子 得 分 与 因子 荷载 ， 所 以 ， 从 最 小 二 乘 意义 上 来 说 〈 实 因 主 成 分 分 析 亦 为 一 
基于 最 小 二 乘 原理 的 方法 ) ， 有 














|Y— 2:0; X; po "Dy EDS [s | Y— Eoi X;—H6* || < 


| Y— Ie OX, —U Vt | 








这 是 因为 式 中 互 和 G:! 为 任意 其 他 矩阵 的 前 m 列 或 前 m 行 ， 当 然 也 包括 UW 和 VW%'! 在 内 。 
这 也 正 是 要 证 明 的 结果 。 
表 


残 差 双 线 性 分 解法 与 广义 秩 消失 因子 分 析 法 解析 结果 的 预测 误差 比较 表 





























$ 本 组 成 ? RBL GRAFA 
序号 
A B C D A B A B 
1 2 2 0 0 0. 033 0. 036 0. 049 0. 460 
2 2 2 0 0 0. 022 0. 030 —1. 233 — 1. 433 
3 2 2 0 0 — 0. 008 — 0. 003 —0. 722 0. 267 
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续 表 
样 本 组 mo RBL GRAFA 
序号 
A B C D A B A B 

4 2 2 0 0 0. 020 0. 064 0. 022 —1.077 
5 2 0 0 0 一 0. 313 0. 007 0. 110 一 0. 143 
6 2 0 2 0 — 0. 030 0. 007 — 0. 082 — 0. 393 
7 2 0 0 2 0. 122 一 0. 143 0. 163 一 0. 180 
8 2 0 2 0. 147 0. 090 0. 293 0. 907 
9 0 2 0 0 —0. 018 0. 037 — 0. 013 0. 093 
0 0 2 2 0 — 0. 004 0. 064 — 0. 020 0. 183 
11 0 2 0 2 — 0. 002 一 0. 116 — 0. 022 — 0. 132 
2 0 2 2 2 0. 003 0. 046 一 0. 202 一 0. 040 
3 2 2 2 0 —0. 012 — 0. 068 — 0. 337 3. 387 
4 2 2 0 2 — 0. 233 一 0.131 一 0. 233 一 0. 832 
15 2 2 2 2 一 0. 169 — 0. 339 — 0. 603 — 0. 690 
6 1 0 3 3 —0. 043 0. 099 — 0. 130 一 0. 323 
7 0 1 3 3 0. 041 0. 178 一 0. 170 0. 0 
8 3 0 1 1 — 0. 039 —0. 744 0. 043 —0. 113 
19 0 3 1 1 1.33 —10.17 0. 043 2.017 
20 2 2 2 2 — 0. 196 —0.411 — 0. 082 一 0. 372 
21 2 2 2 2 一 0. 060 0. 047 一 0. 317 一 1. 163 
22 2 2 2 2 —0. 027 0. 284 —0. 112 一 0. 763 
23 0 0 2 0 —0. 073 一 0. 100 一 0. 060 一 0. 017 
24 0 0 0 2 一 0.014 0. 036 — 0. 243 一 0. 127 











—— O 其 中 组 分 A 和 也 为 分 析 物 ;C 和 了 为 背景 干扰 ;预测 误差 一 估计 值 一 实际 值 。A 一 二 苯胺;B 一 二 苯 丽 ;C 一 联 葵 酰 ， 
D 一 丁 二 酸 二 酯 。 
《四 ) 约束 背景 双 线 性 分 解 
从 上 一 节 的 讨论 可 以 看 到 ， 残 差 双 线性 分 解法 实质 上 相当 于 一 个 不 断交 近 过 程 ， 此 法 通 
过 交替 调整 待 测 分 析 物 的 浓度 估计 值 和 干扰 背景 的 主 成 分 估计 来 不 断 允 近 一 个 目标 函数 
(Y SGX 一 UV') ， 使 其 达到 量 测 噪声 水 平 。 所 以 ， 残 差 双 线性 分 解法 有 可 能 转化 成 一 
优化 问题 。 
现在 ， 来 具体 考察 一 下 灰色 分 析 体 系 的 数学 模型 










































































从 上 式 可 以 看 到 ， 这 里 已 知 量 是 样本 量 测 矩阵 Y 和 校正 矩阵 XiG 一 1，…，72) ; 男 一 方面 ， 
似 还 可 得 到 一 个 隐 含 在 纯 组 分 量 测 和 矩阵 都 是 双 线 性 矩阵 的 假设 之 下 的 已 知 量 。 可 以 预先 求 出 
Y 和 矩 阵 的 秩 ， 继 用 求 得 的 Y 矩阵 的 秩 减 去 待 测 组 分 数目 ， 又 可 得 未 知 干扰 背景 矩阵 的 秩 ， 从 
而 得 到 了 R 和 矩阵 中 所 含 未 知 干扰 的 物种 数 。 注 意 到 这 一 信息 是 一 非常 重要 的 信息 ， 也 就 是 
利用 了 这 一 信息 ， 才 使 双 线性 二 维 数据 的 灰色 分 析 体 系 的 解析 可 得 到 有 物理 意义 的 唯一 解 。 
利用 样本 量 测 和 矩阵、 校正 矩阵 X; —1. t n) 和 未 知 干扰 背景 矩阵 的 秩 这 些 已 知 条 
(F. RAH, Manne 和 Kvalheim 将 灰色 分 析 体 系 的 解析 问题 转化 为 一 个 优化 问题 ， 提 出 了 
约束 背景 双 线 性 分 解法 5 。 
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【基本 思路 】 
将 灰色 分 析 体 系 的 数学 模型 改写 成 为 


Y DcX;+R+E 





一 VCciXi 十 2 Quj;v; 十 五 (i=l, ,nn; j=l, *, m) 
>, 2 iVj 


RP, uj lvi —1,. e, m) 分 别 为 对 R 矩阵 进行 主 成 分 分 析 所 得 的 因子 得 分 和 因子 
载荷 。 从 上 式 可 以 看 出 ， 假 设 先 估计 c; WR cj;Gi 二 1，…，n) 的 估计 不 正确 ， 过 高 或 过 
低 ， 都 将 使 (Y 一 2c;X;) 中 还 包含 了 校正 矩阵 Xi (i 二 1，…，n) 的 信息 ， 这 就 导致 不 可 能 
只 用 m 个 主因 子 对 R EE, IW Y XX) 矩阵 进行 完全 分 解 ， 也 就 是 说 ， 此 时 (Y 一 
Mc;X; — Duw!) 中 还 包含 了 未 扣 尽 的 X;G 王 1，…，72) 的 信息 ， 当 然 ， 其 方差 也 就 大 于 量 
测 误差 了 。 当 且 仅 当 c;G 王 1，…，7) 被 正确 舍 计时， 才能 用 mx 个 主因 子 对 Q—2Xc;X0 
和 矩阵 进行 完全 分 解 ， 也 只 有 此 时 (Y 一 cjX; 一 ujv;) 的 方差 才 与 量 测 误差 相当 。 这 样 由 
上 式 定义 的 灰色 分 析 体 系 的 定量 校正 问题 就 转化 为 一 个 以 上 Y 一 cjX; 一 ujvi 2? 为 目标 函数 
的 优化 问题 。 即 在 给 定 的 立 ; (i = 二 1，…，n) Am WREEF, XE c;G —1. ts n) 的 估计 进 
行 寻 优 ， 当 目标 函数 | Y— Xe Xi — Duvi l2 达到 最 小 时 ,ci GE 二 1，…，n) 的 估计 即 为 要 
寻找 的 待 测 物 的 相对 浓度 。 

如 果 对 cj (Gi 二 1，…，n) 估计 的 寻 优 须 在 〈 一 2， 十 ceo) 全 空间 进行 搜索 的 话 ， 这 一 最 
优化 问题 的 求解 仍 不 是 一 件 易 事 。 幸 而 在 此 要 求 的 是 相对 浓度 ， 它 们 不 可 能 为 负数 ， 同 时 ， 
还 可 以 看 到 ， 利 用 一 些 别 的 已 知 条 件 ， 可 以 把 寻 优 搜索 空间 约束 在 一 个 O, a) 空间 中 进 
行 ， 这 也 是 为 什么 称 之 为 约束 背景 双 线 性 分 解法 的 原因 。 

【基本 过 程 】 

约束 背景 双 线 性 分 解法 由 以 下 几 步 构成 。 

(1) c;G —1, t. n) 估计 的 约束 界 因 要 求 的 是 相对 浓度 值 ， 所 以 ,它们 不 可 能 为 负 
数 ， 即 





















































此 为 c;(i 二 1，…，n) 估计 的 下 界 。 

另外 ， 利 用 光谱 量 测 值 不 为 负 的 约束 ， 即 光谱 的 量 测 值 Ri; 和 Xiwj 不 可 能 为 负 的 条 件 ， 
可 以 导出 c(i 二 1]，…，n) 估计 的 上 界 。 在 此 ，R%; 和 Xi; 分别 表示 R EEN X ; 4E rp AS e 
行 第 7 列 的 元 素 。 

设 量 测 误差 矩阵 中 的 所 有 元 素 Ea (R1. ce. w; j=l, =, r) 的 绝对 值 都 小 于 某 一 
常数 ， 即 


| Eg | E 
因为 量 测 值 Ry AN RT BE OU fA. MIA 


Ri —Yy 一 DesXin 2—E 
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DeX w SY, +E 
同时 ， 注 意 到 cX a 都 不 能 为 负 的 条 件 
c; =c; Xm /Xaj L DX wy /Xn < Yy HE)/X i 
或 者 可 写 为 ， 对 于 所 有 的 k=1, 1, w; jl. vore 
c; S Max(c;) —^ min[ (Y; + E)/X aj ] G =l, .…, n) 
将 式 c; 宇 0 和 上 式 连 起 来 ， 就 得 到 了 浓度 估计 的 约束 界 。 


(2) 背景 干扰 矩阵 的 秩 佑 计 因为 了 和 矩阵 的 秩 减 去 待 测 组 分 数目 就 可 得 未 知 干 扰 背景 矩 
阵 的 秩 ， 即 





m —rank(R) 一 Tank(Y) 一 7 





所 以 ,正确 估计 Y 和 矩阵 的 秩 也 是 本 方法 能 否 成 功 的 一 个 关键 。 估 计 和 矩阵 的 秩 的 方法 很 多 ,但 
大 多 是 基于 主 成 分 分 析 的 方法 来 完成 的 ， 有 关 这 一 点 我 们 将 在 第 五 节 详 细 讨论 。 另 外 ， 如 果 
m 二 0， 说明 R 矩阵 实际 不 存在 ， 此 时 即 可 直接 采用 前 一 节 讨论 的 白色 分 析 体 系 的 解析 方法 
进行 解析 。 
G) 优化 方法 ”在 目标 函数 上 一 cjXX; 一 ujv;' ?中 , uj fv; 也 是 c(i 二 1，…， 
D 的 函数 ， 因 uj 和 上 也 是 主 成 分 分 解 的 因子 得 分 和 因子 载荷 ， 对 目标 函数 直接 求 导 几乎 不 
可 能 ， 所 以 ， 须 采用 无 须 依 靠 求 导 的 优化 方法 ， 如 单纯 形 优化 方法 [122] 或 Powell 方 
法 023.129 。 因 此 问题 是 一 个 约束 优化 问题 ， 如 采用 单纯 形 优化 方法 须 在 每 步 都 计算 一 次 边 
界 条 件 ， 所 以 在 文献 [121] 中 是 采用 Powell 方法 来 进行 的 。 具 体 算法 步 又 如 下 。 

D 选择 一 个 落 在 约束 区 间 的 初始 估计 浓度 矢量 点 e — (ed. cos cns cS) 和 任 一 组 
张 成 约束 区 间 的 正 交 基 矢 量 (vl. vt. o. yt], 

© k=1, 2, 3.… 

i 从 1 到 mw， 计算 
































c^ i = c$: i 十 04， iy^: i 
在 此 0**i 使 下 列 包 含 9 的 函数 取得 极 小 值 
pO) = fet 7 -F0y ^, uj. v 3) 


由 令 yk'n+1 二 (c^ — ceti) / | conet | ; 并 且 计 算 





c^ n+l 一 Ce， n 十 0O4， ntl yk: nl 
在 此 0 使 下 列 包 含 0 的 函数 取得 极 小 值 
$ (0) — f Cc** " -EOy* "3, uj, vt) 


i 从 1 到 nmn， 计算 
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A, =max[ flet i, uj, v$) — flet i, ugs vy;)] 








在 此 ， 下 标 x 表示 A 是 在 第 x ZPARTSOKIH. DIS. 
© 如 果 


[0e H [e (Ufo *, uj, y 1)— foh H, uj, v 3]/A,)U 


那么 , i 从 1 到 nn, v 


yb i —=yk» i 


并 转向 第 四 步 ， 否 则 令 
一 Vi G =l, 2, neta 元 一 外 ) 


yb Pune (i=r, r+1, =, n—1) 


ytl: n — yk, nH 


转向 第 @ 步 。 
D 如 果 
fleti, u;, 


J 


v;)/Gwr —n) < 2E 
或 者 是 ， 对 于 1 一 1,2，…，71， 都 有 
c 儿 一 c < 0. 0003 


则 停止 计算 ， 否则 令 &==& 十 1， 转 向 第 @@ 步 。 

在 此 值得 提出 的 是 ， 由 上 式 给 出 的 0.0003 是 一 个 终止 指标 ， 即 如 果 前 后 两 次 迭代 的 浓 
度 差 值 小 于 0. 0003 时 则 认为 已 达到 要 求 。 对 于 不 同 的 分 析 仪 器 ， 应 该 有 不 同 的 终止 指标 。 
值得 提出 的 是 ， 该 算法 的 第 四 步 到 第 @ 步 保证 搜索 方向 (v5. v^. ee, v) 总 能 线性 
无 关 [224 ， 男 外 ， 在 上 述 算法 的 第 @@ 和 第 @ 步 的 一 维 搜索 优化 算法 ， 在 本 文 是 采用 了 0. 618 
法 ， 或 称 黄金 分 割 法 来 进行 的 。 

(4) 优化 搜索 区 间 的 确定 上述 讨论 的 Powell 方法 实质 上 是 一 种 无 约束 优化 方法 ， 在 
优化 过 程 中 ， 只 给 出 了 优化 的 方向 而 没有 给 出 优化 搜索 的 区 间 ， 所 以 ,在 此 将 对 优化 的 搜索 
区 间 的 确定 进行 必要 的 讨论 。 

对 于 给 定 的 初始 矢量 ce* 和 寻 优 搜索 方向 v， 可 以 构成 一 个 直线 方程 






































c? 4- By —c 





AF, p 就 是 要 确定 的 一 个 实数 ， 确 定 了 p 的 变化 区 间 也 就 等 于 确定 了 优化 的 搜索 区 
间 。 实 际 上 ， 搜 索 区 间 是 由 下 式 决 定 的 ， 即 








0< c; xi max(c;) CF Tl ve ny 
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0 x c? 4- Bo; S max(Cce;) (:—1525***4n 





) 


这 样 ， 对 于 矢量 e 的 每 一 个 元 素 ，B 都 可 以 找到 一 对 边界 。 现 分 三 种 不 同情 况 加 以 讨论 。 


(D 3 o,—0Hf 

— cO fv; s B x (Gnax(c;) —c0)/v; (1,2, 
© ?4 v, «0 时 

—cH/v; >B > (max(c;) —c9)/v; (i 1,2, 
Q 34 o,—OH[ 


Oxcpgzxmax(c; (1,2, .m) 





由 上 述 式 子 确定 的 是 一 组 边界 ， 对 于 下 界 应 取 其 中 的 最 大 值 ， 
确定 寻 优 搜索 边界 的 几何 意义 示 于 图 6-38。 








— EU 
C2 一 0 C 一 C * BV min 








€ 


确定 寻 优 搜索 边界 的 几何 示意 图 
图 中 Bmn 为 下 界 点 ，Brax 为 上 界 点 





对 于 上 界 应 取 其 最 小 值 。 


这 里 的 初始 矢量 e? 是 一 个 具有 相对 意义 的 初始 矢量 ， 即 每 一 个 方向 得 到 的 最 优点 实际 


上 就 是 下 一 次 搜索 中 的 初始 矢量 。 





约束 背景 双 线 性 分 解法 实质 上 是 把 灰色 分 析 体 系 的 校正 问题 转换 为 一 个 约束 优化 问题 。 
前 一 节 讨 论 的 残 差 双 线性 分 解法 实质 上 也 相当 于 一 个 不 断 优 化 逼近 过 程 ， 不 同 的 是 ， 该 法 是 
通过 交替 调整 竺 测 分 析 物 的 浓度 佑 计 值 和 干扰 背景 的 主 成 分 估计 来 不 断 逼 近 的 ， 而 且 ， 此 通 





近 过 程 的 初始 点 就 是 不 考虑 背景 干扰 的 简单 对 校正 矩阵 的 回归 结果 











， 可 以 想象 ， 如 果 背 景 干 








扰 严重 时 ， 此 点 离 真实 最 优点 是 很 远 的 ， 如 果 在 交替 通 近 过 程 中 存在 着 局 部 最 优点 的 话 ， 就 
有 可 能 落 入 局 部 最 优 的 危险 ， 这 一 点 从 表 6-13 所 列 的 结果 似乎 也 可 以 看 出 。 残 差 双 线 性 分 
解法 的 结果 除 少 数 几 个 外 一 般 都 比较 好 ， 只 有 第 32 号 为 一 非常 坏 的 结果 ， 这 就 有 可 能 是 落 
和 了 局 部 最 优 ， 不 然 ， 此 结果 无 法 解释 ， 实 因由 式 || y — XX Utt yard |< || Y— 
Mos PX UOVO: 给 出 的 逼近 过 程 总 是 会 使 目标 画 数 Y DeX UVO 不 断 变 小 ， 


















































所 以 此 解 只 可 能 是 局 部 最 优 解 ， 即 虽然 此 解 离 真 实 解 很 还， 但 目标 
的 值 在 该 领域 可 能 是 最 小 的 。 


函数 QY—2c;X; -UV) 





为 探讨 残 差 双 线 性 分 解法 的 局 部 最 优 解 的 情况 ， 对 其 进行 了 计算 机 模拟 实验 。 图 6-39 
示 出 了 模拟 双 线 性 体系 的 色谱 和 光谱 图 。 表 6-13 给 出 了 两 种 方法 的 计算 结果 ， 从 表 中 结 
可 以 看 出 ， 残 差 双 线性 分 解法 确实 存在 局 部 最 优 解 。 为 了 进一步 证 实 这 一 结论 ， 我 们 算出 了 








几 个 体系 的 响应 曲面 〈 参 见 
真实 解 时 ， 是 有 可 能 落 入 局 部 最 优 的 。 


























虽然 约束 背景 
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LEAN 


多 元 校 了 











图 6-400. ， 从 岁 可 以 看 出 ， 此 响应 曲面 类 似 鞍 形 ， 如 初始 点 远离 












































双 线 性 分 解法 是 用 浓度 估计 的 约束 来 减 小 落 入 局 部 最 优 的 危险 的 ， 但 是 ， 








波长 


图 6-39 











保留 时 间 


模拟 体系 的 纯 组 分 色谱 和 光谱 图 
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因 该 法 在 此 使 用 的 Powell 算法 仍 是 一 个 局 部 最 优 方法 ， 所 以 还 不 能 保证 对 任何 情况 都 不 落 
入 局 部 最 优 。 随 着 化 学 计量 学 的 深入 人 研究， 近 笑 


退火 ”5,136] 和 遗传 算法 I27.133] 。 谢 玉 珑 等 用 模拟 退火 方法 研究 了 约束 


局 部 最 优 情况 [1291 ， 


E 


Hx 








近 ， 陈 文 灿 等 也 月 








ab = 
H S 








日 遗传 算法 对 此 进行 了 类 似 研 究 0301 ， 均 得 到 满意 结果 。 
图 6-39 所 示 模 拟 体系 的 残 差 双 线性 分 解法 (RBL) 与 约束 背景 双 线 性 分 解法 (CBBL) 








FE 来 出 现 了 几 个 全 局 最 优 算法 ， 著 名 的 有 模拟 
双 线 性 分 解法 的 














结果 比较 ? 
分 析 体 系 | 分 析 物 未 知 干扰 RBL 估计 CBBL 估计 
a $2 3. 0. 9998 002 0. 9999 . 00004 
,3 2.4 0. 9993 002 . 0001 . 0003 
2.3 1.4 1. 0003 0003 0. 99996 0. 99997 
E 2.3 1. 0004 0003 1. 0000 0. 99999 
b 2 3.4 0. 9999 003 0. 99997 . 0000 
,3 2.4 0. 9993 004 . 0000 . 0000 
2.3 1.4 0. 9999 013 0. 99997 1. 0000 
E 2.3 0. 9982 003 . 0000 . 0000 
c i2 3.4 0. 9998 002 0. 99999 1. 00004 
,3 2.4 2. 026 041 . 0001 . 003 
2.3 1.4 0. 9993 008 0. 99996 0. 99997 
3.4 1.2 2. 818 1002 1. 0000 0. 99999 
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分 析 体 系 | 分 析 物 未 知 干扰 RBL 估计 CBBL 估计 

d 1,2 3.4 1. 0061 0. 923 1. 0000 . 0003 
1.3 2.4 0. 9869 1.138 1. 0000 . 0003 
2.3 1,4 1. 024 0. 9833 0. 99996 0. 99997 
1,4 2.3 1. 338 1. 090 1. 0000 . 00004 
2,4 1.3 1. 146 0. 9633 1. 0002 0. 99992 
3.4 1.2 2. 088 1.111 0. 9997 . 00008 

CD arb fit ps ZR AH 4 A e h E 6-39 给 出 。 











(b) (c) 
几 个 模拟 体系 的 响应 曲面 图 
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从 本 广 对 灰色 分 析 体 系 的 矩阵 校正 的 分 析 方 法 的 讨论 可 以 看 到 ， 如 果 采 用 和 矩阵 数据 ， 从 
数学 意义 上 来 说 ， 是 可 以 得 到 唯一 解 ， 可是， 在 实际 应 用 中 还 存在 一 些 困难 。 首 先 ， 在 灰色 
分 析 体 系 的 矩阵 校正 的 方法 中 ,实际 上 都 隐 含 着 一 个 假设 ， 就 是 能 准确 地 获得 任 一 矩阵 的 秩 
的 正确 估计 ， 然 而 ， 在 实际 数据 中 实现 这 一 点 却 很 不 容易 ， 尤 其 是 当 样 本 中 的 未 知 背景 干扰 
比较 复杂 时 更 是 如 此 ， 实 因 在 矩阵 秩 佑 计 中 ， 影 响 因素 很 多 ， 如 纯 组 分 波谱 的 重合 程度 、 组 
分 数目 、 纯 组 分 之 间 浓 度 的 相对 比例 、 噪 声 的 形状 〈 如 等 方差 噪声 与 非 等 方差 噪声 ) 等 都 直 
接 影响 矩阵 秩 的 正确 估计 ， 从 这 一 角度 来 说 ， 本 章 讨 论 的 灰色 分 析 体 系 的 校正 方法 对 过 于 复 
杂 的 体系 的 直接 解析 还 存在 一 些 问 题 ， 不 可 认为 上 述 方法 对 于 任 一 灰色 分 析 体 系 均 可 得 到 很 
准确 的 唯一 解 ， 是 随 样 本 的 复杂 程度 而 变化 的 。 其 次 ， 对 于 上 述 方法 应 用 于 分 析 化 学 的 实际 
问题 解决 中 ， 还 存在 的 另 一 类 困难 来 源 于 实际 分 析 仪 器 产生 数据 的 局 上限， 对 于 二 维 奖 光 光 谱 
仪 产生 的 二 维 双 线性 谱 一 般 不 存在 问题 。 但 是 ， 对 于 另 一 类 可 产生 二 维 双 线性 数据 的 色谱 - 
波谱 联 用 的 分 析 仪 器 ， 因 色谱 的 条 件 难 于 控制 ， 使 色谱 在 保留 时 间 的 方向 难以 保证 准确 无 误 
的 重 现 性 ， 所 以 也 给 上 述 讨论 的 方法 带 来 困难 。 如 何 根据 实际 情况 对 联 用 仪器 产生 的 二 维 数 
据 进行 适当 的 预 处 理 ， 使 之 合乎 灰色 分 析 体系 矩阵 校正 方法 的 基本 要 求 和 假设 ， 仍 是 化 学 计 
量 学 家 们 需要 继续 研究 的 一 个 重要 课题 。 


三 、 三 维 (迭代 类 二 阶 张 量 ) 校正 方法 


三 维 校正 方法 (二 阶 张 量 校 正方 法 ) 正 日 益 成 为 解决 分 析 挑 战 的 普遍 工具 。 三 维 校正 方 
法 的 主要 优势 是 ， 在 复杂 体系 中 ， 即 使 在 未 校正 的 光谱 干扰 存在 的 情况 下 ， 也 可 以 实现 直 
接 、 快 速 和 准确 的 定量 分 析 ， 这 是 分 析 化 学 领域 具有 重大 意义 的 发 现 。 这 种 创新 型 分 析 策 略 
被 化 学 计量 学 家 称 为 “数学 分 离 ”， 是 一 种 完全 不 同 于 传统 物理 分 离 和 化 学 分 离 的 绿色 分 析 
策略 。 

在 使 用 三 维 校正 方法 之 前 ， 一 般 不 需要 预先 对 分 析 体 系 进 行 物 理 或 者 化 学 分 离 。 基 于 数 
学 分 离 ， 可 以 极 大 简化 甚至 直接 省 去 预 处 理 步 又 ， 从 而 节约 分 析 时 间 、 人 力 劳 动 和 资源 消 
耗 。 并 且 ， 在 真实 样本 的 分 析 中 ， 极 大 简化 甚至 直接 省 去 预 处 理 步骤， 可 以 避免 待 分 析 物 在 
预 处 理 阶段 的 损失 ， 从 而 避免 在 定量 分 析 结 果 中 产生 系统 性 偏差 。 另 外 ， 作 为 一 种 基于 数学 
分 离 的 绿色 分 析 策 略 ， 三 维 校正 方法 可 以 实现 复杂 体系 中 的 实时 、 原 位 分 析 ， 使 其 在 过 程 9 
析 和 生物 原 位 分 析 等 领域 具有 重要 的 应 用 意义 和 广阔 的 应 用 前 景 。 同 时 ， 三 维 校正 方法 一 次 
可 以 分 析 多 个 待 分 析 物 。 并 且 ， 在 校正 样本 和 预测 样本 之 间 ， 背 景 或 者 说 基线 不 需要 保持 恒 
定 ， 因 为 三 线性 成 分 模型 可 以 使 用 额外 的 组 分 来 拟 合 变化 的 背景 。 

基于 三 线性 成 分 模型 的 三 维 校正 方法 的 数学 模型 规范 、 数 学 原理 严谨 并 且 用 于 实现 该 方 
法 的 多 个 软件 包 已 经 被 化 学 计量 学 家 开发 出 来 。 而 且 ， 其 适用 的 数据 在 现代 仪器 分 析 中 已 经 
比较 普遍 ， 例 如 激发 发 射 矩阵 荧光 CEEMO, 、 高 效 液 相 色谱 联 用 二 极 管 阵列 检测 器 HPLC- 
DAD) 和 液 相 色谱 联 用 质谱 (LC-MS 等 测量 的 二 阶 张 量 数据 。 由 于 二 阶 优势 带 来 的 创新 
型 分 析 策 略 ， 三 维 校正 方法 在 分 析 化 学 领域 的 应 用 越 来 越 广泛 ， 已 经 成 为 定量 分 析 的 创新 型 
解决 方案 。 

(一 ) 三 维 数据 术语 

基于 张 量 代数 理论 ，Sdnchez 和 Kowalski 对 实验 过 程 中 获得 的 量 测 数据 进行 过 简单 的 
分 类 [13 。 可 用 图 6-41 来 形象 地 描述 张 量 数据 从 最 简单 的 零 阶 (zero-order) 发 展 到 复杂 的 
Z (second-order) 7528 — f (third-order) 或 者 更 高 阶 的 自然 发 展 过 程 ， 并 区 分 了 数据 
的 “ 阶 Corde) ”和 “ 维 (way) ”这 两 个 概念 。“ 阶 ”和 “ 维 ” 分 别 代 表单 个 样本 信号 和 
由 多 个 性 质 相 似 的 样本 信号 堆 县 而 成 的 数据 阵 的 维 数 。 当 已 知 仪器 针对 一 个 实验 样本 只 产生 
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单 样品 数据 多 样品 数 阵 E 
E i i 
c» 一 维 校正 
(地 阶 张 量 校正 ) a 
H 
- 
零 阶 张 量 数据 一 维 数 阵 
el L 
1 7 二 维 校正 ie 
(一 阶 张 量 校正 ) Xi 
H 
1 
一 阶 张 量 数据 二 维 数 阵 
= pu 
, : 
三 维 校正 5 
: (三 阶 张 量 校正 ) Fi 
" A 
1 J B J 
二 阶 张 量 数据 三 维 数 阵 
IXJXKXL 四 维 校正 
> MT 伍 阶 张 量 校正 ) 
ZAM bi 
m EN 
1 J 
三 阶 张 量 数据 四 维 数 阵 
RA Hae => REST u MM 维 校正 
di (CD) 阶 张 量 校正 ) 
CID) 阶 张 量 数据 14 维 数 阵 ! y 











校正 方法 中 的 “ 阶 (order) ”和 “ 维 (way) ”的 含义 


一 个 响应 值 时 ， 该 数据 为 一 标量 ， 即 零 阶 张 量 (zero-order tensor) 。 产 生 该 类 数据 的 仪器 通 
常 被 称 为 零 阶 仪器 ， 如 pH 计 、 单 波长 光度 计 等 。 当 使 用 一 阶 仪器 (如 紫外 -可 见 分 光 光 度 
计 、 殉 光 分 光 光 度 计 、 红 外 或 近 红 外 光谱 仪 以 及 核磁 共振 等 各 类 光谱 仪 、 单 通道 HPLC. Hà 
化 学 扫描 仪 或 传感器 阵列 等 ) 量 测 一 个 实验 样本 时 ， 获 得 的 是 矢量 类 型 的 数据 ， 即 一 阶 张 量 
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(first-order tensor) 数据 。 随 着 现代 分 析 仪 器 制造 技术 的 持续 快速 发 展 ， 针 对 一 个 实验 样本 
可 产生 矩阵 数据 的 二 阶 分 析 仪 器 不 断 涌 现 并 迅速 普及 。 这 些 二 阶 仪器 主要 包括 三 维 EEM w 
光 光 谱 仪 、 伴 有 化 学 反应 动力 学 过 程 或 pH 值 变化 的 二 极 管 阵列 分 光 光 度 计 等 单一 仪器 ， 或 
HPLC-DAD, GC-GC, GC-MS, MS-MS 等 联 用 仪器 ， 它 们 产生 的 和 矩阵 响应 数据 即 为 二 阶 
张 量 (second-order) 数据 ， 同 时 量 测 多 个 样本 可 以 获得 多 个 矩阵 ， 这 些 矩 阵 组 合 起 来 就 可 
以 得 到 一 个 三 维 数据 阵 〈 简 称 三 维 数 阵 )。 近 年 来 ， 随 着 分 析 仪 器 的 进一步 发 展 ， 仪 器 的 复 
杂 化 和 智能 化 程度 更 加 高 ， 使 得 能 够 产生 三 阶 张 量 (third-order) 数据 的 分 析 仪器 也 涌现 出 
来 ， 例 如 全 二 维 液 相 色谱 二 极 管 阵 列 联 用 仪 (LC-LC-DAD)、 全 二 维 液 相 色谱 质谱 联 用 仪 
(LC-LC-MS) 等 。 对 于 这 样 的 三 阶 分 析 仪器 ， 单 个 样本 在 单 次 量 测 过 程 中 产生 的 是 一 个 三 
维 响应 数 阵 ， 测 量 多 个 样本 即 可 获得 多 个 三 维 数 阵 ， 堆 和 至 起 来 就 可 以 得 到 一 个 四 维 数 阵 。 当 
然 ， 使 用 EEM 等 二 阶 仪器 并 通过 引入 pH 值 或 反应 时 间 以 增加 一 个 维 数 ， 也 可 以 获得 四 维 
(三 阶 张 量 ) 数据 。 

此 外 ， 标量、 矢量 和 和 矩阵 的 传统 符号 都 会 被 采用 。 一 个 固定 值 的 标量 ， 如 模型 的 因子 数 
目 ， 用 斜体 大 写字 母 N 表示 ; 一 个 斜体 小 写字 母 ， 如 第 个 因子 ,可 以 表示 一 个 可 为 任意 
值 的 标量 。 所 有 的 矢量 都 是 指 列 矢量， 用 粗 体 斜体 小 写字 母 表示 ， 如 a。 和 矩阵 都 是 用 粗 体 大 
写字 母 表示 的 ， 如 A。 三 维 数 阵 用 粗 体 加 下 划 线 表示 ， 如 兰 。 下 标 表示 一 个 高 阶 张 量 的 特定 
元 素 ， 具 体 的 三 维 校正 术语 见 表 6-14。 


三 维 校正 的 术语 


































































































































































































XGOXJIXK) 三 维 数据 阵 

E(IXJXK) 三 维 残 差 阵 

£j XC XJ X KOfB98 ijk 个 元 素 

e jj E(IXJXK) 的 第 ijk 个 元 素 

I.J.K X(IXJXK) 三 个 维度 的 大 小 

AixN,BjxN,CkxN X(IXJXK) 的 三 个 潜在 轮廓 矩阵 ,大 小 分 别 为 TX N,J XN,K XN 

à jy SD jn »Chy A.B fl C 三 个 潜在 轮廓 矩阵 的 第 加 jz Mkn 的 元 素 

ac) bosco) A.B fI C 三 个 潜在 轮廓 矩阵 的 第 ;、 7 和 & 的 向 量 

diagCa o ) diag( b (5) »diagle œ) à (5 Dco fl eoo I] EXT f fb 

XioXSoXa 分 别 表示 三 维 数 BPEXCXJ X Ko BU8 i 个 水 平 切片 矩阵 ,第 7 个 侧面 切片 矩阵 

和 第 & 个 正面 切片 矩阵 

dd 分 别 表示 三 维 数据 阵 下 CTXJ 久 天) 的 第 ; 个 水 平 切片 矩阵 ,第 7 个 侧面 切片 矩阵 

i TUS k 个 正面 切片 矩阵 
































(二 ) 三 线性 成 分 分 解 模 型 

20 世纪 60 年 代 初 期 L. R. Tucker 等 3] 提出 了 Tucker3 主 成 分 模型 ， 对 三 相 因 子 分 析 
(three-mode factor analysis) 做 了 大 量 的 工作 ， 获得 了 后 来 者 的 高 度 评价 。 而 后 
Kroonenberg 和 de Leeuw 等 [133] 进一步 完善 了 这 一 理论 。70 年 代 初 期 ，HarshmanLl3 以 及 
Carroll 和 Chang[135 几乎 同时 提出 了 三 维 数 阵 的 三 线性 模型 及 分 解 问题 ， 前 者 称 之 为 平行 因 
子 分 析 (parallel factor analysis)， 后 者 称 之 为 典型 分 解 (canonical decomposition)。 在 化 学 
计量 学 领域 ， 常 把 它们 简称 为 PARAFAC 模型 。PARAFAC 模型 和 Tucker3 模型 的 建立 ， 
对 三 维 数据 阵 分 析 方 法 打下 了 扎实 的 基础 。 

1. 三 线性 成 分 模型 的 数学 表达 

(1) 三 线性 成 分 模型 的 标量 表述 ”按照 三 线性 成 分 模型 ， 三 维 数 据 阵 X 的 每 个 元 素 
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X ijk 可 以 表达 如 下 


N 
Xd 一 X a ipbinC pn cTeis QQQ = ly Ly 二 1],2,… ,J sk =1,2,.…,K) (6-34) 


AP, di NTER X 的 一 个 元 素 ; eij4 为 三 维 残 差 阵 E 的 一 个 元 素 ; ai. bj, M 
c 必 为 模型 参数 ，c 必 为 第 2” 个 组 分 在 第 & 个 样本 中 的 相对 浓度 ，a;, 和 0j 可 表示 为 第 n 
分 在 第 i 通道 和 j 通道 下 的 相对 响应 信号 。 式 (6-34) 为 三 线性 模型 的 元 素 表 述 形式 ， 其 还 
i ee 切片 和 扩展 矩阵 形式 。 


(3) 























三 线性 成 分 模型 的 向 量 表述 





Xi. =b; diag(a(; CT +E;j. , (1 —].2.-I.j = ly ys ) (6-35a) 
X jk —c(4,diag(b(j AT HE.j (j =1,2,. ,J QR—1.2.—.K) (6-35b) 
Xik =a diagle ag) BT cT Ei G-—101,2..I.b—1.2..K9 (6-35c) 





三 线性 成 分 模型 切片 〈slice) 矩阵 表述 ”按照 三 线性 成 分 模型 ,虽然 理论 上 切片 矩 











阵 表述 有 6 种 等 价 的 表述 ， 但 是 由 于 其 中 3 on eM 3 个 的 转 置 矩阵 ， 因 此 只 需 

















用 3 个 矩阵 就 可 以 完全 表述 ， 即 共有 C3 = = 三 3 种 。 表 述 如 下 
Xi.. = Bdiag(a œ) CT + E; Ci =1,2,.…,1) (6-36a) 
Xj. =Cdiag(bo )AT HEj. Go—12,75J) (6-36b) 
X. —Adiag(c(4;)BT 4- E... (b —1,2.:-,.K) (6-36c) 
(4) 三 线性 成 分 模型 的 扩展 〈stretch) EERE ”对 于 三 线性 成 分 模型 ， 根 据 数学 上 排 
列 原理 ， 该 模型 的 扩展 矩阵 等 价 表述 应 该 有 6 种 ， 即 总 共有 Pi-3X2-5 种 ， 常用 的 3 种 
等 价 表达 如 下 





Xixjk —ACCOBOT +ErxK (6-37a) 
X xxi =B(A©C)T +E;xxi (6-37b) 
Xrxy =C(BOA)T EkxI (6-37c) 


RH, ORRERA PH Khatri-Rao 乘积 

2. 三 线性 成 分 模型 的 图 形 表述 

近年 来 ， 为 了 能 够 清晰 、 直 观 地 表述 三 线性 成 分 模型 ， 许 多 科研 工作 者 做 了 不 人 懈 的 努 
力 ， 并 为 模型 的 图 形 表述 做 出 了 不 可 磨灭 的 贡献 L356~14]。 然而 遗憾 的 是 ， 这 些 表述 方法 或 

多 或 少 地 存在 一 些 缺 陷 ， 不 有 gE 很 贴切 地 表述 模型 的 真正 涵义 。 由 于 目前 存在 的 图 形 表述 方法 

形式 各 异 ， 对 模型 的 理解 很 是 不 利 ， 因 而 有 必要 提出 一 套 统一 的 、 更 为 标准 和 贴切 的 、 更 易 
让 人 理解 的 图 解 表 述 。 吴 等 提出 的 三 线性 成 分 模型 的 图 形 表述 如 图 6-42 Bros 11m), 

为 了 进一步 理解 模型 图 形 表述 的 数学 意义 ， 可 以 通过 三 步 逆 过 程 对 该 模型 进行 量 测 数据 
阵 的 还 原 ， 具 体 步 又 如 下 。 
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3. 三 线性 成 分 模型 的 循环 对 称 性 

在 1998 年 和 之 后 的 系列 研究 工作 中 ， 
存在 的 内 在 三 维 循环 对 称 性 规律 C41~M5]，。 
在 属性 ， 此 属性 的 可 视 化 见 图 6-43。 








吴 等 创新 性 地 发 现 并 且 总 结 了 三 线性 成 分 模型 中 
三 维 循环 对 称 特性 为 三 线性 模型 一 个 很 重要 的 内 
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a -diagm(B X, (C7) ) 
Xp p X s XX 


ri 
o> XB diaga) C" 








三 线性 成 分 模型 的 三 维 循环 对 称 性 


4. 三 线性 成 分 模型 的 化 学 背景 及 其 三 线性 分 解 的 唯一 性 

三 线性 成 分 模型 在 分 析 化 学 中 应 用 广泛 ， 备 受 青睐 ， 其 中 一 个 重要 原因 就 是 它 与 分 析 化 
学 中 的 明 伯 - 比 耳 定律 是 一 致 的 。 以 三 维 交 光 分 析 为 例 ， 假 设 第 & 个 混合 样本 在 激发 波长 i、 
发 射 波长 7 处 的 荧光 强度 值 z 永 等 于 混合 样本 中 所 有 N 个 组 分 的 浓度 c 心 与 各 组 分 在 激发 波 
长 i 处 的 荧光 强度 值 a;, 、 在 发 射 波长 7 处 的 荧光 强度 值 2i 乘积 的 总 和 “当然 还 应 加 上 测量 
RÆ): 














T ijk —ajgbjcy cr à iab jo € go Toc cb aiNbjNCAN Tij 














这 与 三 线性 成 分 模型 是 一 致 的 ， 因 而 三 线性 成 分 模型 有 其 相应 的 化 学 背景 基础 。 

男 一 个 最 为 重要 的 原因 就 是 基于 三 线性 成 分 模型 的 算法 分 解 唯一 性 。 它 与 双 线 性 分 解 时 
存在 的 旋转 不 确定 性 问题 不 同 ， 只 要 对 三 维 数据 X 中 的 成 分 数 N 〈 即 化 学 组 分 数 ) 估计 正 
确 ， 且 体系 满足 4 十 Rs 十 Ec 二 2N 十 2 (4 、&B 和 R&c 分 别 为 三 个 载荷 矩阵 4、 召 和 C Hk 
FOT), MEA, B. C 是 唯一 确定 的 2%] (RHEA, B 和 C 中 列 的 位 置 顺序 及 其 
相对 大 小 变化 ) 。 以 三 维 荧光 为 例 ， 对 于 量 测 三 维 数据 阵 X 来 说 ， 只 要 体系 中 各 组 分 的 激发 
或 发 射 荧 光 光 谱 不 完全 相同 ， 光 谱 之 间 线 性 相关 程度 较 低 ， 且 各 个 样本 中 组 分 浓度 不 存在 共 
线性 问题 ， 一 般 就 能 够 满足 条 件 ka 十 Rs 十 &c 二 2N 十 2， 其 基于 三 线性 成 分 模型 的 分 解 就 是 
唯一 的 。 三 线性 成 分 分 解 的 这 种 唯一 性 给 化 学 家 带 来 了 很 多 令 人 惊喜 的 优势 。 
首先 分 析 工 作者 不 必 再 像 在 二 维 数据 分 析 中 那样 花费 大 量 的 时 间 与 精力 去 确定 组 分 的 零 
浓度 区 及 选择 性 区 域 ， 也 不 必 再 考虑 未 知 物 对 待 测 物 定 量 的 干扰 问题 ， 如 在 二 维 色 谱 数 据 阵 
中 严重 困扰 化 学 计量 学 家 的 大 色谱 峰 包 小 色谱 峰 的 问题 ， 也 能 很 容易 地 被 解决 了 。 值 得 指出 
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的 是 ， 当 4 十 kB 十 kc 宇 2N 十 2 时 ， 基 于 三 线性 成 分 模型 的 分 解 就 只 能 是 部 分 唯一 了 ， 因 为 
它 不 能 对 每 一 个 成 分 都 能 得 到 唯一 的 解 ， 只 能 得 到 某 个 或 几 个 成 分 的 唯一 解 。 这 种 情况 在 二 
阶 校正 中 并 不 少见 。 仍 以 荧光 为 例 ， 假 设 要 测定 体液 中 的 某 种 药物 ， 体 液 贡 献 给 模型 的 成 分 
数 为 二 个 成 分 ， 药 物 为 一 个 成 分 ， 这 样 就 可 以 用 三 个 成 分 来 分 解 这 个 三 维 量 测 立 方 阵 。RA4 
对 应 激发 了 泗 ，ks 对 应 发 射 阵 ，kc 对 应 浓度 矩阵 。 一 般 情 况 下 ， 分辩 后 获得 的 激发 光谱 和 矩阵 
A SRITI IEE B 的 & 秩 是 满 秩 的 ， 因 此 ka =3, ks 二 3。 对 于 浓度 阵 ， 如 果 体 液 各 组 分 
的 构成 比例 是 恒定 的 ， 那 么 kc 二 1。 这 样 &4 十 kg 十 kc 二 7 二 8 (2X3 十 2)， 不 满足 唯一 性 条 
件 。 然 而 ， 即 使 分 解 是 部 分 唯一 的 ， 也 不 会 影响 二 阶 校正 在 实际 体系 中 的 应 用 ， 因 为 在 进行 
二 阶 校正 时 ， 三 线性 数据 的 分 解 对 感 兴趣 的 成 分 分 解 是 唯一 的 。 至 于 不 感 兴趣 的 成 分 (理解 
为 干扰 ) 是 不 是 唯一 ， 因 为 不 影响 对 感 兴趣 组 分 的 测定 ， 可 以 不 必 关 注 。 

(三 ) 平行 因子 分 析 (PARAFAC) 算法 

PARAFAC 由 Harshman 于 1970 年 提出 U3， 并 由 Bro 于 1997 年 做 出 简单 的 总 
45.481, PARAFAC 采用 样本 和 矩 阵 方 程 表示 ， 每 一 个 样本 都 以 Xa RR, k 为 每 个 样本 的 
编号 
















































































X. =Adiag(cu )BT + E. Ck = l; Erry K) (6-38) 


在 这 个 模型 中 ， 样 本 间 组 信号 强度 与 组 分 数目 的 差异 由 对 角 阵 diag(cw ) Piil, ERF 
4、 如 包含 了 数据 中 全 部 组 分 的 定性 信息 。 利 用 残 差 平方 和 最 小 〈 最 小 二 乘 ) 求解 A、B 





及 C 
K K zj 
A = (之 XeBdiagCeuo )) (2 diagte o )B" Bdiag(c (4,)) (6-39) 
k=1 k=1 
K K 
B = (2 X7,AdiagCe qu? ) (È diagle w )4T4diagCcuo )) — (6-40) 
k=1 k=1 
但 与 求解 A、B 的 方式 不 同 ,求解 C 时 对 其 每 一 行进 行 更 新 ,循环 K 次 以 更 新 整个 矩阵 








cas =(((ATA). (BT'B)) diagm(ATX...B))T (6-41) 
在 原始 的 文献 中 , cus 的 求解 依据 下 式 进行 
ca — (TB) * (ATA)} C {(ATX.4B) * I)1 (k=1,.…,K) (6-42) 


实际 上 式 (6-41)、 式 (6-42) 这 两 个 式 子 等 价 。 从 数学 角度 看 , X (6-39)、 式 (6- 
40) 可 以 表示 为 





K 
A= (22X.4BdiagCequ,?) (TB) * (CTC))7 (6-43) 


k=1 


K 
B= (2 XT,Adiagleow )) ((CTC) x (ATA))™ (6-44) 


k=1 





上 述 式 子 中 ， 当 矩阵 病态 甚至 是 亏 秩 时 PARAFAC 的 最 终 解 析 结 果 容 易 受 到 误差 因素 
的 影响 ， 而 在 实际 的 程序 运算 中 ， 以 Matlab 为 例 ， 多 以 广义 道 的 形式 实现 A、B、C 的 更 
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新 。 具 体 的 迭代 过 程 如 下 。 
(OD 确定 体系 的 组 分 数 N 。 
(2) 初始 化 矩阵 A、B。 
(3) 根据 式 (6-41) 或 式 (6-42) 计算 C. 
(D) 根据 式 (6-39) 或 式 (6-43) 计算 和 矩阵 A 并 对 其 进行 逐 列 归 一 化 。 
(5) 根据 式 (6-400 或 式 (6-44) IREE B 并 对 其 进行 逐 列 归 一 化 。 
(6) Hi A 和 B 根据 式 (6-41) 或 式 (6-42) 计算 矩阵 C, 
CD 重复 (4) 到 (6) 步 ， 直 至 收银 标准 

















K = 
. SSR o» — SSR (n 1) 
SSR 0» => X. — A? diag(c o) ) On) (BT)e [7 , SSR-D < E 





一 二 


成 立 。SSR (sum squares of residual error) 表示 残 差 平方 和 ，7 2g 3E XL, 

PARAFAC AXIER A 和 B 的 初始 值 估计 敏感 。 不 准确 的 初始 值 估 计 可 能 导致 算法 
陷入 局 部 极 小 ， 从 而 不 能 收敛 到 全 局 最 优 的 最 小 二 乘 解 。 对 于 和 矩阵 A 和 B 的 初始 值 可 以 由 
随机 数 生 成 器 、 直 接 三 线性 分 解 算 法 (DTLD) 或 者 待 测 分 析 物 峰 形 的 先 验 知识 提供 。 当 使 
用 随机 初始 值 时 ， 应 当 考 虑 用 多 个 初始 值 进行 多 次 计算 ， 尽 管 这 些 努 力 会 明显 地 增加 分 析 时 
间 。 虽 然 ， 不 同 的 初始 值得 到 的 解 可 能 会 有 些 差 异 ， 但 是 ， 当 得 到 的 大 多 数 解 都 相似 ， 就 可 
以 安全 地 认为 PARAFAC 已 经 收敛 于 全 局 最 优 解 附近 。PARAFAC 的 收敛 时 间 可 以 通过 使 
用 一 些 接近 最 优 解 的 猜测 值 作 为 初始 值 进行 计算 而 得 以 改善 。 这 些 猜测 值 可 来 自 DTLD 计 
算 或 者 数据 集中 已 知 的 物质 的 标准 光谱 。 当 使 用 DTLD 的 解 作为 初始 值 时 ， 要 注意 到 
DTLD 算法 产生 的 虚 组 分 会 影响 PARAFAC fip EC, 

PARAFAC 算法 的 两 个 常用 收敛 标准 基于 如 下 两 点 : 在 连续 的 两 次 迭代 之 间 ， 残 差 
变化 或 者 未 建 模 数据 的 改变 ; 加 在 连续 的 两 次 迷 代 之 间 ， 预 测 峰 形 的 变化 。 在 第 一 种 情况 
下 ， 当 连续 两 次 迭代 之 间 的 残 差 均 方 根 小 于 绝对 容 差 或 者 相对 容 差 时 ， 算 法 停止 迭代 。 昌 然 
基于 这 种 拟 合 的 收敛 标准 在 概念 上 比较 直观 , 但 是 ， 决 定 收敛 的 一 个 更 快 方 法 基于 在 连续 迭 
代 之 间 的 A 维 、B 维和 C 维 预 测 峰 形 的 相关 性 。 当 A 维 、B 维和 CC 维 中 连续 迭代 之 间 预 测 
峰 形 的 余弦 值 的 乘积 接近 1， 例 如 将 “接近 ”规定 为 10 司 以内， 算法 停止 迭代 。 在 A 维 中 
的 余弦 通过 将 IXN HEE A oa P A new EF RIRE aud 和 a new 而 计算 得 到 。 人 余弦 定义 为 







































































ColdC new 





cosÜ, = 





Ca oida old ) Ca iewi new) 


cosh, FI cosh. 的 定义 与 cos0。 类 似 。 当 cos0, * cosh, * cos0. 二 1 一 10-5 时 ， 和 迭代 过 程 收 
敛 ， 表 明 在 三 个 方向 中 连续 迭代 之 间 的 相关 度 至 少 为 1 一 10。 

PARAFAC 在 每 一 步 的 迭代 优化 过 程 中 采用 严格 意义 上 的 最 小 二 乘 以 保证 其 经 每 一 步 
的 迭代 循环 后 残 差 逐步 降低 。 因 此 当 算 法 收敛 后 ，PARAFAC 能 够 给 出 最 佳 的 拟 合 。 但 这 
种 迭代 优化 策略 也 使 得 PARAFAC 的 收敛 速度 较 慢 ， 容 易 受 到 组 分 间 共 线性 的 影响 而 陷入 
计算 沼泽 ， 甚 至 产生 并 不 理想 的 局 部 最 优 解 。 此 外 ，PARAFAC 对 预 估计 组 分 数 较 为 敏感 ， 
在 实际 数据 解析 时 需要 预先 估 出 准确 的 组 分 数 。 
(四 ) 人 交替 三 线性 分 解 CATLD) 算法 

ATLD 算法 由 吴 海 龙 等 于 1996 年 提出 I] ， 相 较 于 传统 PARAFAC 算法 ， 是 一 种 无 约 
束 交 替 迭 代 分 解 三 维 数据 的 算法 。 该 算法 基于 交替 最 小 二 乘 原 理 , 借助 基于 奇异 值 分 解 
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(SVD) 的 摩尔 - 彭 若 斯 (Moore-Penrose) 广义 逆 计 算 。 当 数据 符合 三 线性 模型 结构 ， 即 使 
样品 中 存在 着 未 知 干扰 ，ATLD 也 能 获得 优异 的 分 解 结果 。 

三 维 数 阵 基于 切片 矩阵 形式 交替 分 解 ， 由 于 三 线性 数据 的 内 在 循环 对 称 性 ， 三 个 数学 表 
达 形 式 是 完全 等 同 的 。 根 据 三 线性 模型 的 切片 形式 ， 最 小 化 损失 函数 即 为 残 差 矩阵 的 元 素平 
方 和 ， 如 下 所 示 


























I 
olac) = X, l Xi. — Bdiag(a(52CT ||} (6-45) 
i-—l 
J 
cio) = >) | X.; — Cdiagbo)AT ||} (6-46) 
j-l 
K 
"ACTED = 5 X. — Adiag (€ cz) )BT |l d (6-47) 
k=1 
ATLD 算法 通过 最 小 化 损失 函数 交替 迭代 以 上 方程 式 ，A、B 和 C 的 更 新 基于 最 小 二 乘 


原则 ， 从 而 得 到 


al, 一 diagm(B+ X;. (CT)+) (i=1,2,.…,1) (6-48) 
bí; —diagm(C* Xj. (AT)*) G —1.2..J) (6-49) 
CL; —diagm(A* X. (BT)*) (k —1.2.*. K) (6-50) 


式 中 , diagmCO 表示 方 阵 中 于 矢量 的 对 角 元 素 一 列 。 在 每 次 迭代 循环 中 ，4 和 B IBIE 
按 列 实现 单位 长 度 。 通 过 分 辨 相应 矩阵， 对 C. 中 相应 列 对 应 的 每 个 分 析 物 的 相对 浓度 和 真 
实 浓度 进行 线性 回归 即 可 获得 分 析 物 的 浓度 。 

ATLD 进行 更 新 时 以 切片 为 单位 ， 占 有 的 计算 内 存 比 较 小 ， 每 次 迭代 后 都 使 结果 更 加 
符合 三 线性 ， 使 得 收敛 的 速度 很 快 ， 通 常 几 次 就 能 完成 。 抢 阵 对 角 元 素 的 提取 和 广义 逆 的 使 
用 两 者 结合 ， 使 得 ATLD 算法 对 组 分 数 不 敏感 ， 只 要 所 选取 的 组 分 数 不 少 于 实际 的 组 分 数 ， 
均 能 给 出 满意 的 结果 。 但 是 由 于 该 算法 包含 了 取 对 角 元 素 的 操作 ， 因 而 一 切 能 够 影响 对 角 元 
素 的 因素 均 能 影响 解析 结果 ， 而 且 取 对 角 元 素 受 的 影响 要 大 于 对 整体 和 矩阵 求 逆 的 影响 ， 因 此 
相对 基于 整体 矩阵 求 逆 的 算法 来 说 ，ATLD 对 噪声 比较 敏感 。 

交替 三 线性 分 解 CATLDO 及 其 衍生 方法 的 计算 过 程 可 以 简要 概括 如 下 。 

(1) 确定 体系 的 组 分 数 N。 

(2) 随机 初始 化 矩阵 A、B。 

G) 根据 式 6-50) 计算 C, 

(4) 根据 式 (6-48) 计算 矩阵 A 并 对 其 进行 逐 列 归 一 化 。 

(5) 根据 式 (6-49) IEE B 并 对 其 进行 逐 列 归 一 化 。 

(6) Hi A 和 B 根据 式 (6-48) 或 式 (6-49) 计算 矩阵 C, 

CD 重复 (4) 到 (6) 步 ， 直 至 达到 收敛 标准 。 

(8) 后 处 理 ， 对 A、B HIC 进行 符号 变换 。 

(9) 对 每 个 感 兴趣 组 分 在 未 知 样本 中 的 浓度 进行 预测 。 

ATLD 算法 的 停止 准则 如 下 
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| 3% 分 析 化 学 


K 
SSR o» = 5 | X. — A? diag (€ o) ) m) (BT) | A 
k=1 





SSR o» — SSR n-D 之 
SSR =) TRE 








XB. SSR 为 残 差 平方 和 ;7 为 迭代 次 数 ; Buff e —10 55 为 了 避免 因 陷 人 异常 而 导 
致 的 慢 收 人 鳅 (如 陷入 “沼泽 ”)， 设置 最 大 迭代 数 为 3000。 图 6-44 为 ATLD 及 其 衍生 方法 
的 流程 图 。 
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计算 4 和 对 4m 进 行 逐 列 归 一 化 





Y 
计算 Bu 和 对 Bo 进行 逐 列 归 一 化 
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计算 Cn 

















收敛 标准 
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后 处 理 ， 对 4、 互 和 C 进 行 符号 变换 























Y 
对 每 个 感 兴 趣 组 分 在 未 知 样本 中 的 浓度 进行 预测 



































ATLD 及 其 衍生 方法 的 流程 图 


ATLD 算法 具有 对 过 量 的 组 分 数 不 敏 感 、 和 迭代 速度 快 、 占 用 计算 机 内 存 小 并 能 克服 轻 
微 的 偏 线性 问题 的 优点 ， 在 二 阶 校正 中 发 挥 着 重要 作用 。 首 先 ，ATLD 和 常用 的 仪器 如 三 
维 交 光 光 谱 仪 CEEM)、 高 效 液 相 色 谱 - 二 极 管 阵列 CHPLC-DADO 和 高 效 液 相 色 谱 - 质 谱 
(HPLC-MS) 等 相 结合 ， 能 够 对 生物 样品 、 食 品 、 环 境 、 药 学 等 复杂 体系 中 感 兴趣 组 分 准 
确定 量 。 其 次 ，ATLD 算法 能 同时 对 存在 多 种 基质 干扰 样品 中 的 一 种 或 多 种 感 兴趣 组 分 进 
行 检 测 ， 相 较 于 传统 的 方法 更 加 省 时 快速 。 此 外 ，ATLD 算法 与 快速 测定 相 结 合 能 用 于 工 
业 过 程 分 析 ， 而 由 于 工业 生产 的 复杂 性 ， 传 统 方法 几乎 不 可 能 实现 。 

(CE) 自 加 权 交 替 三 线性 分 解 (SWATLD) 算法 

SWATLD 由 陈 增 萍 等 提出 [MJ] ， 作 者 从 改进 优化 目标 函数 的 角度 出 发 ， 在 ATLD 的 基 
础 上 提出 了 自 加 权 交 蔡 三 线性 分 解 算 法 。 该 算法 成 功 克 服 了 PARAFAC 对 过 量 组 分 数 敏感 、 
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收 和 敛 速度 慢 等 缺点 ， 并 在 三 维 数据 的 解析 中 取得 了 满意 的 结果 。 该 算法 对 ATLD 所 采用 的 
目标 函数 做 出 修正 ， 获 得 下 面 的 一 些 方程 

















BT X; =diag(ac, CTi+BTE.,. 
Xi (C^)7 — Bdiag(a (5) + Ei (C1)T, G —1,2,7D (6-51) 
C+ X ;. —diag(b()AT -C^ Ej 
Xj (A*)T —Cdiag( bc») +E; (A)T, G 212,75) (6-52) 
A* X. —diag(c 4, )BT HAT E. 


X.a CB )T —Adiag(c(4,) 4- E.., (B^ )T, (k=1,2,.…,K) (6-53) 


该 算法 的 三 个 新 的 目标 函数 通过 引入 一 些 合理 的 权重 项 来 构建 ， 如 下 所 示 


基于 最 小 二 乘 的 原则 ， 可 分 别 得 到 A、B 和 C 三 个 矩阵 


I 
S(A) = 3G || B+ X... — diag(a CT)T x diag(sqrtC1. /diagm (CT C))) 


i=] 


2 


I 
X | (Oc (CT)+— Bdiag(a a) )) X diag(sqrt(1. /diagm(BTB))) || (6-54) 
i=1 


2 


KF 





S(B) = Y« | C+ X.;. — diag(b c, 2A)? X diag(sqrt(1. /diagm(A TA))) 
2 
J 
3 | Kj CAT)7— Cdiag(bo)) X diag(sqrtCI. /diagm(CTC)))|z (6-55) 
j= 
K € 
SCC) = X) A+ X. — diagle a) )BT)T X diag(sqrt(1. /diagm BT B))|z 


k= 


K 
S3 | (OX. BT)+ AdiagCe 4,2) X diag(sqrt(1. /diagm(ATA)D)I| — (6-56) 


k= 








du) —v lagnt Xs. C). /diagn (CT C)) 十 二 ;diagm(C+ XT, B)/diagm( BTB)) (6-57) 


bij) — 5 (diagm(C* X. A). /diagm(ATA)) 十 了 CdiagmC4+ X1 C)/diagm(CTC)) (6-58) 


€ (4) — $ isgm(A* X, ,B). /diagm (BT B)) + 了 CdiagmCB+ XT,A)/diagm(ATA)) (6-59) 


SWATLD 是 ATLD 的 衍生 类 方法 ， 其 计算 过 程 与 ATLD 方法 类 似 。 








H 
敏感 、 


日 于 其 独特 的 优化 策略 ，SWATLD 比 某 些 算法 更 有 效 。 不 仅 继承 了 ATLD 对 组 分 数 不 
收敛 速度 快 等 优势 ， 同时 ，SWATLD 还 具备 了 对 噪声 水 平 不 敏感 的 特征 。 但 








SWATLD 在 抵抗 共 线性 程度 方面 的 能 力 较 ATLD 略 有 降低 。 


C 




















六 ) 交替 惩罚 三 线性 分 解 CAPTLD) 算法 


交替 惩罚 三 线性 分 解 方法 同样 是 基于 PARAFAC 模型 ， 由 夏 等 提出 !4J 。 此 方法 交替 
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使 用 约束 函数 来 作为 PARAFAC 误差 函数 的 惩罚 项 ， 然 后 最 小 化 三 个 基于 最 小 二 乘 原理 构 





ER ER C 
通过 切片 形式 的 三 线性 模型 可 以 得 到 如 下 残 差 函数 


Ei(A, B, C) = > | Xi. — Bdiag(a (C? | 

















d (6-60) 
i—l 
J 
E; (A, B, C) — Y | Xj. — Cdiag(bco AT |È (6-61) 
jd 
K 
Exk(A, B, C) = S] | X.x — Adiag(co;)2BT |} (6-62) 
k—l1 
根据 最 小 二 乘 原理 ， 对 于 一 个 三 线性 成 分 模型 X;. —Bdiag (aao) CT -E;. G1, 
2,.… ,1)， 可 得 如 下 等 式 
BTX;. =diag(ac) CT, X;. (CT) —Bdiag(a(5) G =1,2,,I) (6-63) 


相似 地 


CT+X 1 — diag(b c )AT, X j. (AT)? —Cdiag(b(j;) 


G —1.2,-:.J) (6-64) 
AT*X.4 = diag (€) )BT, X. (BT) r =A diag(e (45) Ck =],2,.…,K) (6-65) 








交替 使 用 以 上 等 式 作为 限制 条 件 并 与 残 差 函 数 (6-63) —3X (6-65) 结合 ， 可 得 如 下 三 
个 约束 问题 。 


问题 1 : min E; (A, B. C) 


S. 


K 
t. 5 || diag(sqrt(1. /diagm(CTC)))(A+ X..x — diag(e a )BT) | 一 0 


k=1 


I 
X | (x, (CT)7— Bdiag(a (;,)) diag(sqrt(1. /diaggm(ATA))) |lR—0 — (6-66) 


i=l 


问题 2: min E; (A, B, C) 


S. 


I 
t. 5 | diag(sqrt(1. /diagm(ATA))) (B* X;.. — diag(a(5)C?) | 一 0 
i=] 


J 
Y | (Xj. (AT)^— Cdiag(b c») diagCsqrtCI. /diagm(BTB))) |.—0 — (6-67) 
j=l 


问题 3: ^ min Ex (A. B, C) 


S. 


J 


t. 5 [| diag(sqrt(1. /diagm(BTB))) (C+ X ;. — diag(b c) )AT) 性 一 0 


j=1 
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K 
X I OX. (G3 T)*— AdiagCe 4) diag(sqrt(1. /diagm(CTC))) | 一 0 (6-68) 


k=] 
这 里 s.t. 表示 约束 条 件 ; min 表示 最 小 化 ; . /表示 数 除 ， 如 假设 x 二 (7x;) ,y 了 一 (Cy;) ， 
则 x ./y —G;/y;) s sqrt 表示 平方 根 操作 ; 1 表示 维 数 为 N 的 向 量 ， 其 所 有 元 素 均 为 1; 
diagm 表示 列 向 量 ， 其 元 素 等 于 方 阵 的 对 角 元 素 。 
为 了 将 以 上 三 个 约束 的 问题 转化 为 无 约束 问题 ， APTLD 把 对 应 的 约束 条 件 转化 为 惩罚 
项 并 将 其 与 等 式 (6-63) 一 式 (6-650 相 结合 ， 构 建 三 个 目标 函数 。 然 后 ， 通 过 交替 最 小 化 
以 下 目标 函数 CAP 误差 ) 来 分 解 模型 。 























K J 
SCA) = X || X. — AdiagCe a BT gq( 2) || diagCsqrt(1. /diagm(B T B))) 


k—l j= 


K 
(C+ X; — diag( bu) AT» E+ >) ll CX. GT)*— AdiagCe a )) 


k—l 


diag (sqrt) CI. /diagm (CT C5) |[2) (6-69) 


I K 
SG) = X \ (|| X. — Bdiag(a (2C? l;4- 7C] || diagGsqrtCI. /diagm (CT C))) 
i-l k=1 


I 
(A* X. — diag(e uo )BT)) b+ » ll Xi. (CT) * — BdiagCa a )) 
i=l] 
diag(sqrt(1. /diagm(ATA))) lO (6-70) 


J J 
S(O — 9YCI Xj. — CdiagCb o AT |+ £C] || diag(sqrt(1. /diagmCATA))) 
j=l 


j-l 


Ej 
(B+ X; — diag(a (2C?) 性 十 >) ll X.. CAT)*— Cdiag(b ;,)) 


j=l 


diag(sqrt(1. /diagm(BTB))) |$) (6-71) 


这 里 +、p 和 g 为 惩罚 因子 。 


Wr: 惩罚 因子 p、g、r 值 的 选取 

在 进行 APTLD 操作 之 前 ， 首 先 要 确定 惩罚 因子 p、g Wr Bf. x^ p, 和 > 值 
下 的 APTLD 性 能 进行 了 详细 的 研究 。 表 6-15 显示 ， 当 选取 的 p、g für 很 小 时 (p= 二 gq 二 
r=10 ?z« 0), 使 用 APTLD 获得 最 终结 果 时 需要 大 量 的 迭代 次 数 以 及 对 多 余 成 分 数 敏感 与 
PARAFAC 的 情况 是 相似 的 。 另 外 ,在 p、g 和 > 都 小 于 或 等 于 1，N=5 的 情况 下 ， 所 得 
结果 的 变化 很 大 。 男 一 方面 ， 即 使 其 残 差 的 平方 和 相同 ， 不 同 的 运行 也 会 导致 不 同 的 收敛 结 
果 。 当 选取 较 大 的 p、g Mr GU p—q—r-—10)0. Zib APTLD 对 拟 合 因 子 不 敏感 ， 并 
且 收 敛 速 度 加 快 。 进 一 步 增加 p、g Tur 的 值 ， 会 使 APTLD 在 不 同 测试 和 计算 负荷 下 ， 人 性 
能 表现 更 好 。 但 p、g Mr AEA 104 升 到 102 时 ， 没 有 发 现在 定量 方面 有 明显 变化 。 一 系列 
计算 结果 表明 ， 当 p. q Mr 都 大 于 或 等 于 104 时 ，APTLD 很 难 在 性 能 上 有 所 突破 。 由 于 惩 
罚 因子 本 身 的 意义 ， 在 理论 上 ， 应 该 取 无 穷 大 ， 因 而 在 实际 应 用 中 ， 一 般 情 况 下 ， 赋 予 惩罚 
因子 很 大 的 数值 就 可 以 了 ， 不 必 花 太 多 时 间 去 选择 惩罚 因子 的 值 ， 比 如 2 一 一 ”一 1020 。 
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APTLD 算法 中 惩罚 因子 (p, q, r) 的 选择 对 模拟 样本 (7 个 样本 中 任 选 1 个 ) 的 回 
收 率 及 算法 收敛 迁 代 数 的 影响 
惩罚 因子 INDO gis MY 
1 2 3 4 rro 1 p 3 4 IT 
p—q-—r-0 Max? |1.00329 0.9948 1.0002 1.0254 1038 
Min? |1.0031 0.9936 0.9929 0.9950 833 
p—q-—r-10-3 Max |1.0033 0.9948 1.0001 1.0258 1054 
Min |1.0029 0.9935 0.9928 0.9955 750 
p—q—r-1 Max |1.0030 0.9974 0.9925 1.0553 342 |1.0029 0.9969 0.9897 1.0710 350 
Min [1.0028 0.9960 0.9856 1.0252 214 |1.0006 0.8992 0.9812 0.8987 128 
p—1.q—r-10! | Max |1.0052 1.0059 0.9925 1.0131 121 |1.0058 1.0060 0.9934 1.0137 291 
Min [1.0052 1.0059 0.9925 1.0131 56 |1.0054 1.0059 0.9923 1.0076 59 
P=q=r=10? Max |1.0041 1.0037 0.9906 1.0289 171 |1.0049 1.0079 0.9900 1.0260 55 
Min |1.0041 1.0036 0.9898 1.0253 70 |1.0048 1.0076 0.9890 1.0230 50 
p—q-—r-10! Max |1.0046 1.0067 0.9923 1.0185 55 |1.0063 1.0131 0.9922 1.0135 105 
Min [1.0046 1.0067 0.9912 1.0141 36 |1.0052 1.0062 0.9907 1.0095 59 
m 154—7- | Max |1.0046 1.0067 0.9913 1.0184 59 1.0063 1.0131 0.9911 1.0104 — 141 
Min |1.0046 1.0067 0.9912 1.0181 30 |1.0063 1.0059 0.9908 1.0094 21 
p=q=r=10° Max |1.0046 1.0067 0.9924 1.0182 52 |1.0063 1.0131 0.9911 1.0200 128 
Min |1.0046 1.0067 0.9913 1.0138 30 |1.0048 1.0059 0.9908 1.0106 28 
n 10%,g=r= | Max 1.0046 1.0067 0.9913 1.0185 72 |1.0063 1.0130 0.9922 1.0135 99 
Min |1.0046 1.0067 0.9912 1.0183 56 |1.0052 1.0062 0.9908 1.0098 63 
p—q-—r-105 Max |1.0046 1.0067 0.9913 1.0184 64 |1.0063 1.0131 0.9910 1.0106 79 
Min |1.0046 1.0067 0.9912 1.0181 27 |1.0063 1.0130 0.9908 1.0095 51 
(D IND. IT. Max. Min 分 别 表 示 指 数 、 和 迭代 次 数 、 最 大 回收 率 和 最 小 回收 率 。 
© 1.0032 表示 回收 率 。 
APTLD 算法 能 够 有 效 避 免 双 因子 退化 的 问题 ， 能 够 缓解 PARAFAC 算法 收敛 缓慢 的 缺 
点 ， 并 且 它 也 对 过 量 估计 的 成 分 数 不 敏感 ， 这 些 都 非常 有 利于 分 析 化 学 工作 者 在 实际 工作 中 
使 用 。 
(七 ) 交 蔡 耦合 两 个 不 等 残 差 国 数 (ACTUF) 算法 








ACTUF 算法 通过 最 小 化 的 量 测 残 差 和 参数 残 差 来 求解 参数 和 矩阵 59 1 ， 
能 。 首 先 ， 基 于 两 个 不 等 的 残 差 函数 ，ACTUF 可 以 从 复杂 数据 中 充分 提取 分 析 物 信息 ， 并 





感 的 优点 。 


具有 和 较 强 的 抗 噪 性 能 。 类 似 于 ATLD 算法 ，ACTUF 
另外 ，ACTUF 还 能 克服 严重 的 共 线 性 问题 。 








根据 切片 矩阵 形式 的 三 线性 模型 可 以 得 到 两 个 残 差 阵 ， 其 中 测量 残 差 阵 


Xj. — Cdiag(b(5)0AT —E 


参数 残 差 阵 


XT (CT)*— Adiag(bo;) 2ETL (CT)+ ET. 


ACTUF 通过 最 小 化 的 量 
构建 如 下 两 个 不 等 的 目标 也 





数 


G —1. 2, 


G=1, 2, 


UJ) 


时 测 残 差 和 参数 残 差 来 求解 参数 和 矩阵， 依据 最 小 


Steg J) 





具有 综合 的 性 





具有 收敛 速度 快 和 对 过 量 因 子 数 不 敏 


(6-72) 


(6-73) 


二 乘 原 理 ， 可 以 
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J 
ol(A, B)=) ET => || XT, CCT)*— Adiag(b o) Ili (6-74) 
j=l j=l 
Eo s J 
(C) — $1] Ej. l} = >) l X.. — CdiagC boo AT) IE (6-75) 
j=1 j=l 


这 里 上 * || r 表示 Frobenius 范 数 。 
通过 最 小 化 残 差 平方 和 可 以 从 这 两 个 目标 函数 中 求解 出 A4、B HIC: 


J J 
A = [22X7, (C+ diagGb c)? ] [X diago) diagcb o] (6-76) 
j- j=1 
I I 
B = | ÈX: (C)+ diag(a(52] [È diagta c) diagta c0] * (6-77) 
i= i 一 1 
J J 
C= [2 X.;.Adiagbo ) | [2 diagCpo) )ATAdiag(bo) )] (6-78) 
j- j=l 











实际 上 ， 该 算法 属于 不 对 称 算法 ， 可 以 看 出 ， 和 矩阵 A 和 B 是 由 等 式 (6-75) 计算 得 到 
WJ, ABEEC 是 由 等 式 (6-74) 计算 得 到 的 。 正 因为 新 算法 是 不 对 称 算法 ， 所 以 当 赋 予 C 不 
同 的 物理 意义 矩阵 时 ， 可 能 会 使 ACTUF 获得 不 同 的 分 析 结 果 ， 尽 管 这 些 结果 是 非常 相似 
的 。 在 实际 应 用 中 ， 可 以 选 具有 低 条 件数 的 物理 矩阵 为 C， 这 样 可 以 克服 一 定 的 数据 共 线 性 。 

UO 算法 组 合 策略 (ACM) 算法 

ACM 算法 由 于 等 L509] 提出 ， 是 一 种 组 合 类 型 的 算法 。 首 先 ， 作 者 对 目前 常用 的 四 种 三 
线性 分 解 算法 PARAFAC、ATLD、SWATLD 及 APTLD 算法 做 了 较 系统 的 比较 ， 并 对 目 
标 函 数 -性 能 间 的 关系 做 了 一 些 简 单 尝试 性 研究 。 随 后 利用 模拟 数据 以 及 实际 数据 对 算法 进 
行 多 次 平行 测试 ， 获 得 了 这 些 方法 的 一 些 重要 特征 ( 见 表 6-16)。 由 表 6-16 可 以 看 出 ， 
PARAFAC, SWATLD 及 ATLD 算法 性 能 之 间 似 乎 存在 着 一 定 的 互补 性 ， 即 这 些 方法 之 间 
可 以 实现 优势 互补 。 因 此 ， 作 者 根据 迭代 过 程 中 算法 损失 函数 的 变化 对 整个 过 程 做 了 划分 ， 
并 提出 了 三 线性 迭代 方法 组 合 实现 优势 互补 的 算法 组 合 方法 (algorithm combination meth- 
odology. ACM). 
























































ESSI ATLD. SWATLD 及 PARAFAC 算法 特征 
































算 法 特 征 
aun (1) 当 噪声 水 平 较 低 时 ,ATLD 对 组 分 数 及 共 线 性 不 敏感 
(2) 收 敛 速度 快 
(1) 对 组 分 数 及 初始 值 不 敏感 ,对 噪声 水 平 不 太 人 敏感 
SWATLD (2) 合 理 收敛 时 解析 结果 较为 稳健 
(3) 数 据 共 线 性 合理 时 收敛 速度 快 
(1) 当 数据 中 共 线 性 始终 且 组 分 数 估 计 准 确 时 ,结果 最 为 稳健 




















PARAFAC (2) 基 于 最 小 二 乘 原始 使 其 对 数据 拟 合 程度 最 佳 
C30 c ic BE e 


I 


根据 三 线性 模型 ， 能 得 到 其 损失 函数 ， 依 据 损失 函数 C) 
失 

















B 2 
ET 2 anbircm] ) 
7 一 ] 


i—lj-lk 


K 
=] 
ZE, RER ERE fie E W EREE TEET. E 6-45 示 出 损失 函数 随和 迭代 次 
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数 增加 的 变化 情况 。 从 该 图 中 可 以 看 出 ， 从 对 算法 赋予 随机 初 值 开始 ， 到 收 全 于 具有 物理 意 
义 的 解析 结果 ， 这 一 过 程 大 体 可 划分 为 三 个 部 分 ， 初始 值 优化 过 程 、 算 法 优化 过 程 和 算法 收 


SE f, 








第 一 部 分 
初始 化 


第 二 部 分 
初始 值 的 优化 


函数 


fii^ 




















迭代 过 程 
将 三 线性 迭代 优化 过 程 划分 为 三 个 步骤 示意 图 








通过 比 对 SWATLD、PARAFAC 和 ATLD 算法 的 性 能 与 之 前 对 迭代 过 程 的 划分 ， 可 以 
看 出 三 种 算法 重 于 优化 迭代 过 程 的 不 同 部 分 。 因 此 ， 可 将 上 述 三 种 算法 用 于 对 应 的 部 分 ， 实 
现 各 算法 间 优 势 互 补 ， 甚 至 有 可 能 获得 额外 的 优势 。 首 先 采 用 ATLD 对 随机 初始 值 进行 优 
化 ， 然 后 采用 SWATLD 对 ATLD 收敛 所 得 结果 进行 进一步 优化 ， 最 后 利用 PARAFAC 对 
SWATLD 所 得 结果 优化 ， 从 而 实现 数据 的 三 线性 分 解 。 

ACM 整个 流程 展示 于 图 6-46。 可 以 看 出 ，ACM 将 ATLD 所 得 结果 作为 SWATLD 的 
初始 值 ， 并 将 后 者 的 解析 结果 作为 PARAFAC 的 初始 值 。 此 外 ACM 方法 可 将 ATLD 或 是 
SWALTD 的 解析 结果 直接 作为 最 终 解析 结果 输出 。 根 据 ACM 中 对 迭代 过 程 的 定义 ， 
GPARAFAC 与 DPARAFAC 可 视 为 第 一 部 分 ( 见 图 6-45) 与 第 三 部 分 ( 见 图 6-45) 的 一 种 
组 合 。 由 于 这 样 的 一 种 组 合 不 能 保证 GRAM 或 DTLD 所 得 初始 值 的 质量 ， 而 PARAFAC 
对 初始 值 又 较为 敏感 ， 因 而 以 GRAM 作 初 始 值 的 PARAFAC 算法 (GPARAFAC) 与 以 
DTLD 作 初 始 值 的 PARAFAC 算法 (DPARAFAC) 所 得 结果 虽 有 一 定 改善 但 处 理 较 为 复 
杂 的 实际 数据 时 仍 有 可 能 存在 一 定 困难 ， 甚 至 产生 错误 的 解析 结果 。 引 入 第 二 部 分 ( 见 图 6- 
45) SWATLD 后 ， 则 可 以 实现 初始 值 的 进一步 优化 ， 从 而 改善 最 终 所 得 结果 。 

理论 上 ，ACM 具有 以 下 优势 。 

(D 解析 结果 可 唯一 确定 ， 从 而 实现 感 兴趣 组 分 的 分 析 。 

(2) 较 之 于 ATLD、SWATLD 及 PARAFAC，ACM 可 以 组 合 上 述 算 法 的 优势 ， 优 于 
任意 一 种 单独 算法 。 
(3) ACM 能 够 克服 较 高 噪声 水 平 的 影响 ， 此 外 该 方法 还 对 共 线 性 及 组 分 数 不 敏 感 。 

(4) ACM 可 依据 数据 结构 自动 判断 数据 解析 收敛 于 何 种 算法 (ATLD、SWATLD 还 是 
PARAFAC)， 使 得 解析 过 程 更 加 高 效 。 

ACM 具有 的 上 述 优势 可 以 缓解 二 阶 校正 过 程 中 确定 适合 组 分 数 及 选择 适当 算法 解析 数 
据 等 难题 ， 从 而 使 得 该 算法 具有 更 广 的 适用 范围 。 

( 九 ) 算法 比较 

目前 已 有 大 量 的 三 线性 分 解 的 算法 ， 比 较 著 名 的 有 广义 秩 消 失 因 子 分 析 (GRAM) US 719) 
直接 三 线性 分 解 算 法 (DTLD)537 5356、 平行 因 子 分 析 (PARAFAC)r3 4 、 交 替 三 线性 分 
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估计 组 分 数 , 计算 残 差 和 最 大 迁 代 次 要 


























了 
随机 数 作为 4 和 B 的 起 始 值 














Y 
使 用 ATLD 算 法 ， 更 新 迭代 4、B 和 C 
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判断 是 否 完全 收敛 
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Y 
使 用 SWATLD 算 法 ， 更 新 迭代 4、B 和 C 
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判断 是 否 完全 收敛 
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Y 
使 用 PARAFAC， 更 新 4、B 和 C 
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组 合算 法 ACM 的 数据 分 析 流 程 图 





解 算法 (ATLD)04 、 自 加 权 交 替 三 线性 分 解 算 法 (SWATLD)0D4J 、 交 替 惩罚 三 线性 分 解 
算法 CAPTLDOUS, 、 多 元 曲线 分 辨 交替 最 小 二 乘 (MCR-ALS)057 、 双 线性 最 小 二 乘 结合 
残 差 双 线性 CBLLS/RBLOUS559].. fé F fi d 7| — R £8 A 5k 25 X 2X JE (U-PLS/ 
RBL)L160—182]4& | 
由 于 上 述 各 算法 的 目标 函数 不 同 ， 算 法 在 数据 解析 时 具有 不 同 的 特性 。 当 样本 构成 较为 
简单 时 ， 各 算法 解析 所 得 结果 并 无 明显 差异 ， 然 而 由 于 实际 分 析 体 系 的 复杂 性 ， 这 些 算 法 在 
解析 复杂 样本 时 给 rd oo 甚至 有 可 能 提供 不 同 的 解析 结果 。 简 单 
来 说 ，GRAM 5 DTLD 收敛 速度 快 ， 但 受 噪 声 水 平 的 影响 较 大 、MCR-ALS 需要 分 析 物 具 
有 选择 性 区 间 063] 、PARAFAC 1 e 550. 目前, 已 有 文献 对 上 述 几 种 
算法 进行 了 比较 [186~171 。 
吴 等 人 在 20 世纪 90 ERK., X GRAM, DTLD, PARAFAC 和 ATLD 四 种 算法 进行 

了 比较 550 ， 四 种 算法 的 关系 如 图 6-47 所 示 。GRAM 也 许可 以 应 用 于 多 组 分 系统 ， 但 是 仅 
限于 分 析 一 个 标准 样本 和 一 个 混合 样本 ; DTLD 或 许可 以 分 析 多 样本 数据 ， 但 也 仅 限 于 当 第 
一 主 成 分 的 累积 方差 贡献 率 在 样本 空间 中 被 人 为 地 限制 为 2 时 才 有 效 ，PARAFAC 可 以 用 

于 多 组 分 系统 的 多 样本 数据 分 析 ， 然 而 在 算法 设计 上 缺乏 真正 的 三 线性 感 ， ATLD 方法 包 
括 了 GRAM, DTLD fll PARAFAC 方法 的 优点 ， 同 时 有 效 地 克服 了 这 些 方法 的 缺点 。 因 
而 ，ATLD 可 以 认为 是 一 个 通用 的 三 维 三 线性 数据 的 分 解 方法 以 及 通用 的 二 阶 校正 方法 。 
该 方法 适用 于 未 校正 干扰 共存 的 多 样本 系统 中 多 组 分 的 同时 分 析 。 
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Faber 等 人 [50 比较 了 几 种 不 同 的 算法 拟 合 PARAFAC 模型 的 结果 。 这 些 算法 包括 
PARAFAC-ALS、DTLAD、ATLD、SWATLD、PALS、ACOVER、ASD 和 ACOMAR 
等 。 正 如 文献 所 述 : QPARAFAC-ALS 相对 其 他 算法 提供 了 较 高 质量 的 解 ， 遗 憾 的 是 ， 当 
进行 过 因子 拟 合 的 时 候 ， 该 算法 计算 韭 常 缓慢 。@DTLD 方法 ， 尽 管 计算 非常 快速 ， 拟 合 
PARAFAC 模型 的 效果 却 最 差 。 当 需要 一 个 更 快速 的 算法 ,修正 后 的 ASD 也 许 是 一 个 比 
BRE ALS 的 算法 。 这 个 工作 的 目的 仅仅 是 针对 不 同 算法 拟 合 PARAFAC 模型 的 比 
较 ， 并 没有 考虑 到 这 些 算 法 是 否 具有 二 阶 优势 ， 和 早期 统计 学 领域 讨论 PCR 和 PLS 方法 是 
有 偏 还 是 无 偏 拟 合 的 情形 有 些 类 似 。 

于 等 人 比较 了 几 种 知名 的 二 阶 校正 方法 (PARAFAC, ATLD, SWATLD 和 APTLD)， 
并 提出 了 解决 复杂 定量 分 析 问 题 的 方案 (1"?] 。 基 于 不 同 的 输入 参数 〈 噪 声 水 平 、 初 始 值 、 预 
估 的 组 分 数 以 及 模拟 数据 和 真实 数据 的 共 线 性 ) ， 对 这 些 方法 的 性 能 从 以 下 四 个 方面 进行 评 
fh. 预测 能 力 、 解 析 光 谱 与 真实 光谱 的 相似 度 、 拟 合 程度 和 收敛 速度 。 四 种 算法 对 于 同一 数 
据 的 性 能 就 像 一 个 秋千 ， 如 图 6-48 所 示 。ATLD 和 PARAFAC 算法 在 秋千 两 端的 位 置 ， 而 
APTLD 5 SWATLD 算法 在 秋千 中 间 的 位 置 。 该 研究 结合 模拟 数据 与 真实 数据 得 出 如 下 结 
论 ，ATLD 能 够 克服 数据 中 的 共 线 性 因素 ， 具 有 收敛 速度 快 、 对 组 分 数 不 敏 感 等 优势 ， 但 
对 仪器 噪声 较为 敏感 。PARAFAC 的 策略 使 其 具有 优良 的 收敛 特性 ， 但 存在 收敛 速度 慢 、 
容易 陷 人 双 因 子 退 化 中 等 缺陷 。APTLD 5 SWATLD 在 这 些 方法 中 最 为 稳健 ， 能 够 克服 
ATLD 对 噪声 水 平 敏感 的 问题 ， 又 兼 具 对 组 分 数 不 敏感 的 优势 。 但 这 两 种 算法 在 克服 共 线 
性 程度 方面 要 上 略 差 于 ATLD。 总 体 来 讲 ，ATLD 5 PARAFAC 是 当前 三 线性 分 解 算 法 中 性 
能 过 异 的 两 大 类 算法 的 代表 ，APTLD 5 SWATLD 则 可 视 为 最 为 稳健 的 分 解 算法 。 

结合 最 终 的 比较 结果 与 使 用 经 验 ， 该 研究 总 结 出 以 下 几 点 建议 。 

(OD 当 数 据 结构 简单 时 ， 各 算法 的 解析 结果 基本 一 致 。 
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(2) 若 解析 数据 为 荧光 数据 ， 且 背景 较为 简单 ， 建 议 首 选 PARAFAC， 其 次 为 
APTLD, SWATLD 及 ATLD, 

G) cS P RERNE, HENRI. Si tf&ATLD, SWATLD 或 
APTLD. 

(4) 组 分 数 估计 的 方法 在 解析 复杂 数据 时 并 不 能 保证 给 出 准确 的 结果 。 因 而 在 实际 的 应 
用 中 需要 选择 较 大 的 组 分 数 以 考察 是 否 存 在 小 组 分 信息 遗漏 的 情况 。 

(5) 在 实际 的 数据 解析 中 ， 选 择 较 好 的 初始 值 有 助 于 最 终 的 解析 结果 ， 可 选择 DTLD 
做 初始 值 。 

(6) 计算 拟 合 值 的 方式 可 用 于 判断 算法 的 解析 结果 是 否 合理 ， 并 能 判断 算法 是 否 对 组 分 
数 敏 感 。 

C 虽然 数学 模型 中 严格 意义 上 的 最 小 二 乘 能 够 保证 模型 的 严谨 性 ， 但 在 实际 的 应 用 
中 ， 更 应 该 注重 算法 的 定量 分 析 能 力 ， 未 来 的 算法 研究 中 应 更 加 注重 于 数据 中 有 效 信息 的 提取 。 




























































PARAFAC 
SWATLD 


ATLD 


基于 二 阶 校正 的 四 种 三 线性 分 解 算法 的 关系 示意 图 








最 近 ， 张 等 人 提出 了 基于 矩阵 微分 分 析 的 算法 分 析 工 具 ， 对 不 同 的 三 线性 分 解 算法 
(PARAFAC-ALS, ATLD, SWATLD 和 APTLD) 进行 了 深度 讨论 5073] 。 和 抢 阵 微分 分 析 可 
以 清楚 地 阐明 算法 的 优化 策略 ， 并 且 直 观 地 判断 解 空 间 的 情况 。 对 各 个 算法 的 微分 分 析 有 助 
于 梳理 高 效 算法 程序 开发 的 思路 。 在 微分 分 析 结 果 中 ， 如 果 算 法 的 目标 函数 的 形状 是 “ 凸 ? 
的 ， 则 对 应 的 算法 就 对 超 估 计 组 分 数 敏 感 ， 如 果 算 法 的 目标 函数 的 形状 是 “严格 凸 ”的 ， 则 
对 应 的 算法 对 超 估计 组 分 数 不 敏 感 。 同 时 还 提出 了 “和 解 集 ” 概 念 ， 进 一 步 完善 了 关于 三 线性 
分 解 “ 唯 一 性 与 不 唯一 性 ”的 理论 。 即 使 组 分 数 超 估 计 ， 客 观 解 依然 在 目标 函数 的 可 行 解 当 
中 ， 并 且 有 可 能 是 全 局 最 小 。 为 什么 有 一 部 分 算法 能 够 在 组 分 数 超 估计 的 情况 下 依然 能 到 达 
客观 解 ， 男 外 一 部 分 则 不 能 ， 和 矩阵 微分 分 析 都 给 出 了 有 效 的 解答 。 


四 、 四 维 校正 (三 阶 校正 ) 


在 化 学 计量 学 中 ， 四 维 校 正 (三 阶 张 量 校正 ), 简称 三 阶 校正 。 它 处 理 的 数据 对 象 是 一 
个 四 维 数 阵 (三 阶 张 量 )。 目 前 对 单个 样本 测量 直接 得 到 三 阶 张 量 数据 的 仪器 并 不 多 ， 主 要 
有 全 二 维 液 相 色 谱 - 质 谱 联 用 仪 (LCX LC-MS)、 全 二 维 气 相 色 谱 - 质 谱 联 用 仪 (GC X GC- 
MS) 和 液 相 色谱 -三 维 荣 光 联 用 仪 (HPLC-EEM) 等 多 级 联 用 仪器 ; 将 多 个 样本 的 测量 数 
据 进行 组 合 就 可 以 得 到 一 个 四 维 数 阵 Xj(1xjxkxL)。 与 三 维 数 阵 的 构建 类 似 ， 四 维 数 阵 还 
可 以 通过 加 入 时 间或 pH 值 等 维度 与 能 产生 二 阶 张 量 数据 的 仪器 结合 来 构建 。 基 于 四 线性 成 
分 模型 的 四 维 校正 方法 首先 通过 合适 的 四 线性 分 解 算 法 计算 模型 四 个 方向 上 的 轮廓 矩阵， 然 
后 基于 校正 集 使 用 分 解 的 相对 浓度 和 真实 浓度 建立 回归 模型 ， 从 而 预测 未 知 样本 中 对 应 待 分 
析 物 的 性 质 (一 般 为 浓度 )。 

在 非常 复杂 的 分 析 体 系 中 ， 特 别 是 当 高 度 共 线 性 存在 的 时 候 ， 三 维 校正 方法 或 许 不 能 给 
出 合适 的 三 线性 分 解 结果 和 准确 的 定量 预测 结果 。 在 这 种 情况 下 ， 可 以 考虑 使 用 更 先进 的 四 
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维 校正 方法 。 理 论 上 ， 四 维 校正 方法 不 仅 具 有 三 维 校正 的 二 阶 优势 ， 还 具有 一 些 额 外 优势 ， 
例如 更 高 的 灵敏 度 和 更 强 的 分 辨 力 ， 一 般 将 四 维 校正 具有 的 优势 统称 为 “三 阶 优 势 ?。 在 复 
杂 体 系 中 ， 即 使 在 未 校正 的 光谱 干扰 存在 的 情况 下 ， 四 维 校 正方 法 也 可 以 实现 直接 、 快 速 和 
准确 的 定量 分 析 [17。 

所 以 ， 在 使 用 四 维 校 正方 法 之 前 ,一般 不 需要 预先 对 分 析 体 系 进行 物理 或 者 化 学 分 离 。 
基于 数学 分 离 ， 可 以 极 大 简化 甚至 直接 省 去 预 处 理 步 又 ， 从 而 可 以 节约 分 析 时 间 、 人 力 劳 动 
和 资源 消耗 。 并 且 ， 在 真实 样本 的 分 析 中 ， 极 大 简化 甚至 直接 省 去 预 处 理 步 又 ， 可 以 避免 待 
分 析 物 在 预 处 理 阶 段 的 损失 ， 从 而 避免 在 定量 分 析 结 果 中 产生 系统 性 偏差 。 另 外 ， 作 为 一 种 
基于 数学 分 离 的 绿色 分 析 策 略 ， 四 维 校正 方法 可 以 实现 复杂 体系 中 的 实时 、 原 位 分 析 ， 使 其 
在 过 程 分 析 和 生物 原 位 分 析 等 领域 具有 重要 的 应 用 意义 和 广阔 的 应 用 前 景 。 

基于 四 线性 成 分 模型 的 四 维 校正 方法 的 数学 模型 规范 、 数 学 原理 严谨 并 且 用 于 实现 该 方 
法 的 多 个 软件 包 已 经 被 化 学 计量 学 家 开发 出 来 。 而 且 ， 其 适用 的 数据 在 现代 仪器 分 析 中 已 经 
可 以 得 到 ， 例 如 全 二 维 液 相 色 谱 - 二 极 管 阵 列 检 测 器 联 用 仪器 和 全 二 维 液 相 色谱 -质谱 联 用 仪 
器 等 测量 的 三 阶 张 量 数 据 ， 以 及 作为 反应 时 间 的 函数 测量 的 一 系列 激发 发 射 矩 阵 奖 光 数 据 排 
列 组 成 的 激发 -发 射 -时 间 三 阶 张 量 数据 7]。 由 于 三 阶 优势 带 来 的 创新 型 分 析 策 略 ， 四 维 校 
正方 法 在 分 析 化 学 领域 已 经 得 到 越 来 越 大 的 关注 ， 可 以 为 高 度 复 杂 体 系 中 的 定量 分 析 提 供 创 
新 型 解决 方案 。 

(一 ) 四 线性 成 分 模型 

三 线性 成 分 模型 可 以 自然 地 拓展 至 四 线性 成 分 模型 。 在 四 线性 成 分 模型 中 ， 四 维 数 阵 
XvdxJxKkxD 中 的 每 一 个 元 素 zjjw 可 以 如 下 表示 
































































































































N 
T ijkl 一 : 14 Best tn eiu 
n=l (6-79) 


G —1,2,7,1;j =1,2, ,Tk 51,2, Kil —1,2,.L) 


RP, ans. bins Cin TI din 分别 是 四 维 数 阵 XvdxrxKkxD BITS TE SE EAR PE 4rxN、 
B;xu. Crx Drix P in, jn, kn Min 个 元 素 ，N 代表 模型 中 有 信号 响应 的 组 分 
数 ， 包 括 变化 的 背景 ;ej 是 四 维 残 差 阵列 Eocrxjyxkxz) 中 的 元 素 。 因 为 xj; 中 建 模 的 部 分 
HFE au. bj. cuu 和 dw 具有 线性 关系 ， 所 以 这 个 四 维 数 阵 就 构成 一 个 四 线性 成 分 模 
型 ， 上 述 表 达 方 式 基于 标量 形式 。 

四 线性 分 解 将 一 个 四 维 数 阵 〈 四 阶 张 量 数据 ) 分 解 为 秩 为 1 的 成 分 张 量 之 和 。 基 于 外 积 
形式 ， 四 线性 成 分 模型 可 以 如 下 表示 



































N 
XqOXIXKXL) LI Xa, ? b, Ca l d; T Eqaxixkxi (6-80) 


n=] 





式 中 ，。 表 示 矢 量 外 积 : a,r ba, c, 和 d DER E e RE E Arxa BrxN« CkxN 
和 DLxw 的 第 n 列 。 
基于 切面 的 切片 矩阵 形式 ， 四 线性 成 分 模型 可 以 如 下 表示 








X.. —Adiag(d (p) diagCe 44) BT E, 
(6-81) 
(k =1,2,.…,K;/ —].2.:-:.L) 
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Xi. — Bdiag(a,;; )diag(d o )CT 十 五 ; 














(6-82) 
(—1,2,:,L;i —1.2.7.10) 
Xi.. =Cdiag(b g> )diagla a) )DT + E;j.. 
(6-83) 
(1 =1,2,. ,1;) —].2.7:,.J) 
X ji. — Ddiag(c (4,2 diag(bc 5, )AT -FE.j. 
(6-84) 
(j = ;b —]1.2.-—-.K) 
基于 完全 拓展 矩阵 形式 ， 四 线性 成 分 模型 可 以 如 下 表示 
Xixik, —ACDOCOBO)? + Erik (6-85) 
X;i«ku1 —BCACO D(2C)T + Ej«kr1i (6-86) 
X KXLIJ —COBOACODOT + Exx (6-87) 
Xixijk =D(COBOA)T + ELxijKk (6-88) 
基于 部 分 拓展 矩阵 形式 ,四 线性 成 分 模型 可 以 如 下 表示 
X =Adiag(da;)(COB)T +E... (6-89) 
Xi —Bdiag(a() (DOC) T 十 五 (6-90) 
Xj.. —Cdiag(b( 9) (CAO DOT +E.j.. (6-91) 
X... — DdiagCc(4,,2 (B OAOT +E... (6-92) 








XB. ORR K-R 积 ; 十 表示 Moore-Penrose 广义 逆 ; diag Œ Æ XE fA XB [Ee M T f 
其 对 角 元 等 于 括号 内 对 应 矢量 的 元 素 。 由 于 四 线性 模型 的 内 在 循环 对 称 性 04:2784 ， 每 种 形 
式 的 四 个 表达 式 在 数学 意义 上 都 彼此 等 价 。 四 线性 模型 循环 对 称 性 的 可 视 化 见 图 6-49。 

如 果 和 忽略 尺度 化 和 列 顺 序 ， 只 要 满足 条 件 &4 十 kB 十 kc 十 kp >2N+3, HP ka, kg, 
&c 和 &p 分 别 是 轮廓 矩阵 4、B、C 和 D B e fk. 那么 四 线性 成 分 模型 的 分 解 将 是 唯一 
的 L756,178] 。 这 里 的 分 解 唯一 性 可 以 确保 分 解 出 的 轮廓 具有 物理 意义 。 例 如 ， 一 个 荧光 激发 - 
发 射 -pH- 样 本 四 线性 成 分 模型 可 以 通过 四 线性 分 解 得 到 四 个 方向 上 洪 在 的 激发 光谱 、 发 射 
光谱 、pH 轮廓 和 相对 浓度 轮廓 。 四 线性 成 分 模型 分 解 的 图 形 表达 如 图 6-50 所 示 。 

(C) 四 维 平 行 因 子 分 析 (four-way PARAFAC) 算法 

平行 因子 分 析 算 法 一 般 通 过 交替 最 小 二 乘 来 实现 34.1M6] 。 对 于 四 维 ， 通过 基于 完全 拓 
展 和 矩阵 的 四 线性 模型 ， 可 以 获得 以 下 四 个 损失 函数 

























































































o(A)= || Xryk, — ACDOCOB)? [IZ (6-93) 
c (B) — || Xur: — BCAOD OC)! | (6-94) 
c (C) = || Xxxuij — CCBOACODOT ||? (6-95) 
oD) = | Xixyk —D(OCOBOA)T? ||? (6-96) 


407 | 
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ao -diagm(B'X, (DOCM) 
Xpog MX ae Xa Xl 

1 
s X; -B diag(aj))(D O C)! [f 
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2 5E € 
EX 人 
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Ci -diagm(D'X ,((BO.A)!)*) 
Xa Xi. Xs X] 


K 
aE] |X ,-D diag(c)(BO A)'| B 
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可 以 用 交替 最 小 二 乘法 获得 以 下 四 个 等 式 


A —XpgkL [OD OCO BOT ]* (6-97) 
B —X xxii CAO D OC) ]* (6-98) 
€ —Xxkxuj [LG OACODOT ]* (6-99) 
D —-Xixiuk[(COBOA)T]* (6-100) 


从 而 一 个 典型 的 四 维 平行 因子 分 析 算 法 的 迭代 过 程 可 以 简单 概述 如 下 
CD 估计 因子 数 ，N ; 

(2) 随机 初始 化 和 A4、B 和 C; 

(3) 使 用 等 式 (6-100) 计算 D; 

(4) 使 用 等 式 (6-97) 计算 A; 
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(5) 使 用 等 式 (6-98) 计算 B; 

(6) 使 用 等 式 (6-99) 计算 C; 

CD 逐 列 归 一 化 A4、B 和 C; 

(8) 使 用 等 式 (6-100) 计算 D; 

(9) 重复 步骤 (4) — (8) 直到 满足 一 个 停止 准则 。 
算法 的 停止 准则 如 下 








SSR o») — SSRn-D 
SSRon-D 





<e (6-101) 








这 里 SSR™ = | E, b; m 是 迭代 数 ， Boo 通常 。 一 


5， 为 了 避免 因 陷 和 人 异常 而 导致 的 慢 收 敛 〈 如 陷 人 “沼泽 ”)， 设 置 最 大 迭代 数 为 3000。 
(三) 交替 惩罚 四 线性 分 解 《APQLD) 算法 
交替 惩罚 四 线性 分 解 算法 可 以 看 作 交 替 惩 罚 三 线性 分 解 算法 的 扩展 [77。 对 于 交替 惩罚 

CREATES A [148], 按照 交替 惩罚 三 线性 分 解 算法 的 理论 ， 可 
以 把 它 扩展 到 四 维 。 这 样 ， 可 以 获得 以 下 四 个 目标 函数 


























K L 
SD = >) >) I X. —Adiag(d co) diagCe a) )BT | 十 


k—llI-—l 


K L 
q( 57 NK (870 — A diagld o diagte q,) If 


k—1li—1 


J K 
十 >, | sqrtQW5) (D+ Xi — diagCe 4, diag(b o; )AT) Ii) (6-102) 


j=1k=1 


L I 
SB) — >`) >) || Xi. — Bdiag(a (2 diag(d o )CT 性 十 


I—1l1i-l 


L I 
a 53 Ki (07)*— Bdiag(a (;,) diag(d o )) ll 


K IL 
+ 5M | sqrt (Wa) (A? X..u — disg(d 5) diagCe 4, )BT) lit (6-103) 


ll 
ll 


I J 
S(C) = 9] `X; — Cdiag(b o )diagla 5 )DT ||} + 


i-1j-1 


I J 
(252 | (Xj. (DT) *— Cdiag(b c; diagCa o )) Il 


L I 
+ 5M sqrt (We) (BT X;. 4 — diag a (;)diag(d o )C™ It) (6-104) 
l=1 i=1 
J K 
SD) — 51 | Xj. — Ddiag(c g )diag(bo) )AT | 十 


j=1k=1 
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3l (X ji CAT)*— Ddiag(e 4) diagC bc) Il 


J 
=]1k=1 


I J 
十 SYM || sqrt(We)(C* Xi — diagCb c) diag(a c) )DT) lè) (6-105) 


i=1j=1 





这 里 diag C«O 表示 把 矢量 变 成 以 矢量 元 素 为 对 角 元 素 的 矩阵 ，diagm(。 ) RRIA 
阵 取 对 角 元 素 而 变 为 矢量 ，sqrt 表示 平方 根 操作 ， 
WA 一 diag(7. /diagm(ATA)) 
Ws — diag(1. /diagm (BT B)) 
Wc — diag(1. /diagm (CT C)) 


Wp —diag(1. /diagmC(DT D)) 




















按照 以 上 的 目标 函数 ， 可 以 利用 交替 最 小 二 乘 原理 ， 即 固定 人、 中 和 C， 最 小 化 SCD) 
而 获 D; WB, CMD, 最 小 化 SC(U) 而 获 A; 固定 C、D 和 4， 最 小 化 SCB) 而 获 B; 
固定 D、4 和 器， 最 小 化 SCC) 而 获 C。 从 而 可 以 获得 以 下 四 个 等 式 











J K 
D = ( 51 DOXA 4- 8 CA) TWA diagC b o )diagle g) + 


p 2 DX}. (C OTWediag(a o diago )) 


i=l j=1 
J K 
一 ( X J diag(b c) diag(e (4) (ATA + pWa )diag(b g) )diagle a) ) + 


p 2j 2 We GiagCa o Ddiagb o ))?) (6-106) 


i=] j=1 


K E. 
A= ( 5X YX uB +qBH)TWg)diaglea )diaglda)) + 


K 
aX DXT, (D^) Wpdiag(b c, )diagCe q,) 


T; 
P diag(c,)diag(id 5) (BT B + qWg) diagCe q diag(d a) 十 
k—1ll1-1 
J K | 
d >》， 2 JW» Gdiag Gb c diagCe q,))* (6-107) 


j=1ż=1 





L I 
B= ( 5) Xi CHr CT) TWe) diag(d ou )diagla (50) + 


l=1 i=1 


K L 
r >， X7, CA*)TW, diagCc 4, diag(d on ) 


A 
= 











第 六 多 元 校正 与 多 元 分 辨 





| 
( 2; 2 diag(d a) )diagla c) ) (CTC +rWc)diag(do )diagla c) ) + 


t 
Wa (diag(eu ) diag(d 2? ) (6-108) 


下 一 1 7 一 1 


C= ( D>) > Xi D - 5(O7)TWp)diag(a u )diaglb o) )) + 
i=lj= 
L T 


59] 9X, G^TWsdiag(d o» )diag(a cn )) 


I J 
a ( 2; > diag(a (;,) diag(b cj; ) CDT D + sWp2diagCa;,2diag(bc,) + 








I 
t 
s> 2 Ws (diag(d o diagCa o ))? ) (6-109) 


1—1i-1 





APQLD 算法 的 迭代 过 程 同 四 维 PARAFAC 算法 相似 。 不 同 的 是 APQLD 算法 还 需要 在 
步 给 惩罚 因子 b... r 和 s 赋 以 数值 。 从 理论 上 讲 ， 惩 罚 因 子 的 数值 应 当 要 赋 以 无 穷 





大 ， 因 而 可 以 对 它们 取 以 非常 大 的 值 ， 而 不 必 过 多 考虑 这 些 参数 的 选择 。 一 般 选 择 p—q— 


六 一 5 一 1020 。 


构建 ， 通 过 设计 一 种 独特 而 合理 的 加 权 残 差 函 数 作为 四 线性 模型 损失 函数 的 约束 项 ， 并 选取 
合适 的 约束 系数 使 目标 函数 既 能 兼顾 四 维 平行 因子 具有 强 的 噪声 容忍 能 力 的 优势 ， 又 能 兼顾 











《四 ) 人 交 蔡 加 权 残 差 约 束 四 线性 分 解 《AWRCQLD) 算法 
交替 加 权 残 差 约束 四 线性 分 解 算 法 ， 以 四 线性 模型 的 不 完全 扩展 矩阵 形式 出 发 进行 算法 















































交 蔡 惩罚 四 线性 分 解 算法 的 收敛 速度 快 和 对 组 分 数 不 敏感 的 优点 [572] 。 算 法 构建 具体 如 下 ， 
基于 四 线性 模型 的 不 完全 扩展 的 矩 阵 形式 ， 可 以 获得 以 下 四 个 新 的 残 差 函 数 





L 
o(A) = 9] | X. —Adiag(dw) (COB)T |24- 


l=1 
L 
AA 2, l| X. (0 B)T)*— Adiag(d oo ))Wp |i (6-110) 
1-1 
I 
c (B) — >) | X... — Bdiagla 2 DOC)" E+ 
i-l 
I 
às >. | CX... (CODO C) T)— Bdiag(a (520WA llt (6-111) 
i=l 
J 
c (C) =>, | X... — Cdiag(b o) (CA OD)? | 十 
j=l 


J 
Ac 9) | X... (CA ODOT)*— CdiagCb o) Ws |è (6-112) 
j-l 


K 
c(D) = M || X... — Ddiag(c a) )(BOA)T 用 十 


k=1 
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K 
Ap 9j || CX... ((B OA) T) *— DdiagCe q44))Wc |l (6-113) 
k=l 


式 中 , Wp = diag(sqrt(1. /diagm(DTD))) ; Wa = diag(sqrt(1. /diagm(ATA))) ; Wg = 
diag(sqrt(1. /diagm(BTB))) ; Wc =diag(sqrt(1. /diagm(CTC))) ; A4 ,4p àc 和 Xp 是 约 
RRA HAFT E P5 2 E DAAR 25 K A VU AI S6 48: HE XB E JE SCIT VU R ERRAN I5] T3 R PK 
ZONA WBARBUPRPE. HdEacS C eJ. iilo ERULIELA EA Hen BS. nT AARI UD 
下 的 最 终结 果 














Z [us i ((COBO -- A4 CCCOB)T)* WoWp)diag(d o )) X 


L 
(3idiag(d o) ((COB)T CCOB) -- AAWpWp)diagCd o )) ` (6-114) 


l=1 
I 
B = (XXi... (DOC) +ås DOC T+ WaWa ) diag(a 52) X 


I 
(2 diaga a) (OD OC) CD OC) -- AWAW. )diagla c )) (6-115) 


p= 


J 
C 一 (20X 3. (AOD) --AcCCAOD)T)* WoWs ) diag(b o )) X 





(2 diaga) (XCAOD) T (AOD) +àcWsWs)diagbo)) (6-116) 


j= 
K 

D = (ZX a. CB OA) +åp ((BOA)T)* WeWe ) diagCe œ )) X 
k=1 


K 
(3idiag(eq,) (B OA) T GB O AD +ApWcWo)diagle a )) ` (6-117) 


k=] 








该 算法 拥有 同时 具备 对 组 分 数 不 敏 感 、 收 敛 速 度 快 以 及 对 噪声 容忍 能 力 强 的 优势。 
第 五 节 黑色 分 析 体系 的 多 元 分 辨 方法 


对 于 分 析 试 样 毫 无 验 前 信息 ， 即 有 关 其 物种 数 、 哪 几 种 化 学 物种 及 其 浓度 范围 丝 不 清 
4B. 分析 化 学 的 任务 是 首先 确定 其 物种 数 ， 进 而 解析 出 各 纯 物 种 的 谱 图 (可 以 是 光谱 、 波 谱 
等 )， 即 将 其 首先 转化 成 为 白色 分 析 体 系 ， 然 后 进行 定量 分 析 。 这 类 分 析 体 系 是 分 析 化 学 中 
最 难 的 一 类 体系 ， 因 其 像 个 黑匣子 ， 故 我 们 称 之 为 “黑色 分 析 体 系 ”。 这 类 分 析 体 系 ， 在 分 
析 化 学 实践 中 不 少见 ， 很 多 中 药 样本 就 可 以 视 为 黑色 分 析 体 系 。 但 我 们 需 注意 到 ， 在 此 讨论 
的 体系 实际 上 还 只 局 限于 那些 已 经 过 适当 预 处 理 ， 可 以 直接 进 样 的 样本 。 事 实 上 ， 任 何 分 析 
仪器 ， 尤 其 是 色谱 分 析 仪 ， 其 前 处 理 是 分 析 是 否 成 功 的 关键 步骤， 此 情况 正如 我 国 色谱 前 辈 
上 户 佩 音 院 士 所 言 Gd 人 “ 流 得 出 ， 分 得 开 ”， 如 结合 这 里 所 讨论 的 化 
学 计量 学 方法 ， 所 谓 对 “黑色 分 析 体 系 ” 的 解析 ， 就 是 在 “分 得 开 ” 这 方面 做 文章 ， 以 提高 
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色谱 的 分 辩 能 力 。 所 以 ， 这 里 所 讨论 的 黑色 分 析 体 系 的 解析 方法 ， 又 可 称 为 多 元 分 辨 方法 。 

分 析 化 学 计量 学 家 们 已 研究 出 了 不 少 基于 高 维 分 析 仪 器 的 多 元 分 辨 方法， 包括 和 抢 阵 数据 
结构 和 张 量 数据 结构 的 化 学 计量 学 的 多 元 分 辨 解析 方 法 ， 尤 其 是 对 于 色谱 联 用 仪器 ， 如 液 相 
色谱 与 二 极 管 阵列 联 用 仪 HPLC-DAD)、 气 相 色 谱 与 质谱 联 用 仪 (GC-MS), AHENK 
红外 光谱 联 用 仪 (GC-IR〉 等 所 产生 的 矩阵 数据 ,已 发 展 了 一 系列 解析 新 方法 ， 如 结合 色谱 
保留 指数 定性 ， 在 线 质谱 解析 和 智能 数据 库 技术 ， 可 望 解决 黑色 分 析 体 系 的 快速 定性 定量 分 
析 问 题 。 

黑色 分 析 体 系 的 分 辨 算法 将 以 矩阵 分 辨 算法 和 张 量 分 辨 算法 为 线索 展开 。 从 理论 上 说 ， 
基于 矩阵 分 辩 的 方法 从 纯 数 学 角度 来 说 ， 应 难以 得 到 有 物理 意义 的 唯一 解 。 但 是 ， 如 果 存 在 
一 些 具有 特殊 条 件 的 数据 ， 其 中 特别 是 色谱 联 用 仪器 所 产生 的 二 维 数 据 ， 情 况 就 发 生 了 变 
化 。 这 些 仪 器 包括 液 相 色谱 与 二 极 管 阵列 联 用 仪 (HPLC-DAD)、 气 相 色 谱 与 质谱 联 用 仪 
(GC-MS)、 气 相 色 谱 与 红外 光谱 联 用 仪 (GC-IR)、 液 相 色 谱 与 二 极 管 阵列 联 用 仪 CHPLC- 
DAD) 等 。 因 这 些 数据 不 但 同时 包含 了 光谱 和 色谱 的 信息 ， 而 且 色 谱 还 具备 很 强 的 分 离 特 
性 ， 可 使 一 个 很 复杂 的 混合 体系 分 解 成 为 相对 简单 的 子 系统 ， 并 且 这 些 子 系统 还 同时 具有 一 
些 别 的 有 用 特征 ， 这 就 为 分 析 化 学 计量 学 家 们 提供 了 机 会 。 近 十 几 年 来 ， 基 于 自 模式 曲线 分 
辨 法 ， 分 析 化 学 计量 学 家 们 提出 了 很 多 的 新 算法 ， 对 于 一 般 的 色谱 重 爱 峰 ， 均 可 给 出 令 人 满 
意 的 结果 ， 如 渐进 因子 分 析 法 、 窗 口 因 子 分 析 法 、 直 观 推导 式 演进 特征 投影 法 、 正 交 投 影 分 
辨 法 、 子 窗口 因子 分 析 法 等 。 


一 、 基 于 主 成 分 分 析 的 体系 组 分 数 确定 方法 


借 主 成 分 分 析 确 定 体系 独立 组 分 数 的 有 关 理 论 和 方法 ， 是 黑色 分 析 体 系 解析 的 至 关 重 要 
的 第 一 步 。 多 年 来 有 关 此 方面 已 有 较 多 研究 [80~185] Malinowski 对 此 进行 了 全 面 系统 的 研 
究 ， 提 出 了 因子 分 析 〈 主 成 分 分 析 ) 的 误差 理论 [18] ， 并 给 出 了 几 种 确定 化 学 混合 体系 物种 
数 的 判别 标准 ， 下 面 将 对 这 些 内 容 给 出 较 详细 的 介绍 。 

所 谓 主 成 分 分 析 (principal component analysis)， 又 称 因 子 分 析 (factor analysis), XX 
两 种 方法 在 数学 上 就 是 对 数据 量 测 和 矩阵 的 协 方差 阵 进 行 正 交 变换 ， 以 找到 量 测 和 矩阵 的 协 方差 
阵 的 特征 值 和 特征 向 量 ， 继 而 确定 体系 的 主 成 分 或 主因 子 ， 对 于 这 里 将 要 讨论 的 黑色 分 析 体 
系 ， 实 际 就 是 该 化 学 混合 体系 的 纯 物 种 数 。 利 用 化 学 混合 体系 的 量 测 数 据 和 矩阵 直接 进行 组 分 
数 的 确定 ， 一 直 是 化 学 计量 学 研究 的 热点 问题 ， 它 在 物理 化 学 和 分 析 化 学 中 有 着 十 分 重要 的 
应 用 ， 如 不 可 分 离 的 平衡 体系 中 及 联 用 仪器 所 产生 的 二 维 数据 中 的 物种 数 的 确定 等 。 

ix x 为 化 合 物 光 谱 的 量 测 矩阵 。 其 中 zz 为 第 ; 个 混合 物 在 第 7 个 波长 〈 或 更 一 般 地 称 
为 敏感 通道 i) 的 量 测 值 ， 在 此 对 混合 物 样 本 有 一 限制 ， 即 每 个 混合 物 中 各 组 分 的 相对 浓度 
应 不 尽 相 同 或 对 应 成 比例 ， 用 和 矩阵 可 具体 表示 为 : 





















































































































































Xj] Tiz * Zin 
X21 T2 * Tn 
X= 
[x ml Xm2 Dro T mn | 








AE, m 为 混合 物 波谱 数目 ; n 为 波长 (分 析 通 道 ) 数目 。 一 般 要 求 m Mn 都 大 于 体 
系 实际 存在 的 独立 组 分 数 〈 即 体系 的 纯 物 种 数 )。 
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显然 ， 如 不 存在 量 测 误差 ， 则 X 矩阵 的 秩 就 代表 体系 中 存在 的 独立 组 分 数 ， 这 是 因为 
和 矩阵 的 秩 就 代表 此 矩阵 中 线性 无 关 的 向 量 的 个 数 ， 为 一 纯 数学 秩 。 确 定 和 矩阵 秩 的 方法 有 几 
种 ， 本 章 主 要 介绍 主 成 分 分 析 的 方法 。 

先 求 出 量 测 矩阵 X 的 协 方差 阵 Z， 























Z—X'X (6-118) 


协 方 差 阵 Z 为 对 称 正定 矩阵 ， 这 样 就 可 采用 正 交 变 换 的 方法 来 求 出 它 的 特征 值 和 特征 向 量 ， 
不 为 零 的 特征 值 的 个 数 就 是 矩阵 的 秩 。 如 设 X * 为 不 含 任何 误差 的 数 阵 ， 则 有 














A¥ 0 c 0 0 c 0 


0 A¥ 0 0 = 0 


Q'*x*«x*p* = 0 0 wes Ad 0 T 0 (6-119) 








0 0 .… 0 0 = 0 


AF, d 为 独立 组 分 数 ， 且 4? DSA; Q'OÀ XC 所 对 应 的 正 交 特征 向 量 和 矩阵 。 然 而 ， 
实际 上 任何 量 测 都 存在 误差 ， 即 





X —X"' +E (6-120) 














式 中 , E 为 误差 矩阵 。 如 果 直 接 对 量 测 矩阵 X 的 协 方差 阵 Z 进行 正 交 分 解 ， 一 般 可 得 





ài 0 7 0 0 c 0 


0 Ag = 0 0 EE 0 


Q'X'XQ 一 | 0 0 m Àd 0 ... 0 








原先 那些 为 零 的 特征 值 因 误差 的 影响 都 转变 成 非 零 ， 仍 然 有 ;二 ;+1。 这 样 ， 探 讨 体系 中 
的 独立 组 分 数 〈 主 因子 数 ) 的 问题 ， 就 转换 成 在 误差 的 影响 之 下 , 式 〈6-119) 右边 对 角 阵 
中 原 为 零 的 特征 值 将 会 怎样 转化 为 非 零 ， 以 及 如 何 来 确定 存在 误差 的 矩阵 X 的 独立 组 分 数 
的 问题 。 
(一 ) 误差 扰动 下 的 协 方差 阵 特 征 值 变化 限制 
^ Z* —X"''X* , Bx (6-118) 和 式 (6-120)， 可 求 得 
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Z=X'X=(X* +E) (X* +E) 
—X'"X*' -X'"E-E'X* +E'E 


=Z* aZ 





Z' 在 62 扰动 的 影响 下 ， 其 特征 值 会 发 生 什么 样 的 变化 ， 变 化 的 幅度 受 什 么 限制 ? 在 此 ， 
可 采用 形式 求 变 分 的 方法 ， 并 略 去 二 阶 以 上 的 小 量 ， 即 可 求 出 特征 值 M7 GS, 2. s 
d) 的 变化 情况 。 根 据 特征 值 与 特征 向 量 的 性 质 , 式 Q*'X*'X* Q* 一 [X47 可 写成 如 下 
ÉR: 























Z'qj —Ajqj 








UB. a; HEE 中 第 j 个 列 向 量 ; X77 HAARR E e E REE, j d 时 ， 
皆 为 零 。 对 上 式微 分 得 : 








8(Z*0q? 十 Zr6g —A28(9/0 4-942297 


两 边 对 相应 特征 向 量 q*' 作 内 积 





qi '9(Z70q; tqj'Z'0qj —Ajqj 0(q;7 +a aa 
因 Z* 为 一 对 称 阵 ， 即 有 
qj'Z' 一 9) 二 和 六 9 


这 样 ， 就 可 将 前 式 左边 的 第 二 项 和 右边 的 第 一 项 略 去 ， 所 以 有 





qi'ó0(Z*0qj = ř q ř tq; * 
即 得 
9j 0—4/902709q; /(/47) 
对 上 式 取 模 得 
18Q7) l= llaz Maz Ilaj i/ia las 


AP, | «| RAER RPAEIE E 








| 6507) [<S llécz"*»l (6-121) 


AX 6-121) 可 以 看 出 ， 所 有 实 对 称 和 矩阵 的 特征 值 问题 是 良 态 的 ， 它 仅 与 6 (Z“*“) 的 
范 数 有 关 ， 而 主 成 分 分 析 中 所 遇 到 的 数据 协 方差 阵 Z 均 系 实 对 称 和 矩阵 ， 这 就 为 借 主 成 分 分 
析 来 确定 体系 独立 组 分 数 提供 了 理论 依据 。 

仍 从 式 (6-121) MUAH., BAFI) ,如 采用 极 大 范 数 ， 则 1560 关 ) | 要 小 
于 6(2Z*) 和 矩阵 的 最 大 特征 值 ， 这 提示 我 们 如 按 (X*'E 十 E'X* HE'E) 构成 6(Z*) 和 矩阵， 
再 求 出 它 的 特征 值 ， 即 可 得 出 16)| 的 上 限 ， 据 此 即 可 判断 体系 中 至 少 含 有 多 少 个 独立 组 
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《二 ) 因子 分 析 的 误差 理论 
由 于 实验 误差 ， 任 何 数据 量 测 矩 阵 皆 可 表示 为 两 部 分 ， 即 

















mS cub dy (6-122) 


实际 上 ， 此 式 也 就 是 如 式 (6-1200 的 标量 式 。 另 外 ， 根 据 OIXIXO ， 并 令 U=XxQ, MA 








X =UQ' 








注意 到 在 此 我 们 利用 了 Q 矩阵 是 正 交 和 矩阵 的 性 质 。 根 据 和 矩阵 乘法 法 则 可 得 





Tij = D undu (6-123) 
1 
而 根据 QO*'X*'X*Q* 式 , SX =U, MA 


x =) užq% (6-124) 
k=1 





上 述 两 式 说 明 ，X 可 由 个 相互 正 交 的 向 量 q; G51, 2. te. n) 线性 表示 ， 而 XX* 则 可 
由 a 个 相互 正 交 的 向 量 q} G51, 2, =, d) 线性 表 出 ， 因 误差 阵 E 包括 在 量 测 和 矩阵 XX 
之 中 ， 所 以 有 





= otau + » ORA kj (6-125) 
k=d+1 
即 ， 误 差 矩 阵 五 bec o AREE X 所 求 得 的 正 交 矩阵 @ 来 线性 表示 ， 在 此 ， 我 们 有 意 
将 其 分 成 两 部 分 ， 第 一 部 分 之 c 赤 ai ， 它 包含 前 d 个 大 特征 值 所 对 应 的 特征 向 量 9j Cj — 1. 
2,…,d)，Malinowski 将 这 d 个 特征 向 量 称 为 主轴 ;， 38 — 3854 29 2205,q,; ， 属 于 纯粹 由 量 测 
误差 而 引出 的 那 部 分 特征 向 量 q; Cj—d--1. qd 十 2，…，72)， 一 般 说 来 它们 所 对 应 的 特征 
值 都 很 小 ，Malinowski 将 它们 称 为 次 轴 [5 。 
将 式 (6-122) 用 式 (6-124) 和 式 (6-125) 来 表示 ， 可 得 




















r3 














-cuia Fikrni t v oiie (6-126) 


= k=d+1 


对 照 式 (6-123), S uu —uanqü/qu For. AA, XX 6-126) 可 写成 


sp d » ORA kj 


k=d+ 
如 写成 矩阵 的 形式 ， 则 有 


X —U^ Q' -- AQ* (6-127) 





上 式 中 的 8 BIS X —UQ'" 中 的 特征 向 量 阵 ， 而 
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ui uia 0 0 

M21 U 24 0 0 

U' = 
* * 

[Uml U md 0 0 | 

B o o 
QO ce O Gg gag ^ dla 

o o 
0 =e 0 dag ™ l,a 

A = 





式 (6-127) 右边 分 成 了 两 部 分 ， 即 


和 一 X+ 十 X。 
其 中 

x^g 

X° = AQ! 


o o 
0 Ut 0 Om, d+l DNE 901, 
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(6-128) 


(6-129) 


(6-130) 


(6-131) 


EIk, X KEM MEAP) MARKER, CUS TEMER X 的 主要 信息 ， 而 X。 则 





为 次 轴 所 构成 的 矩阵 ， 它 主要 反映 了 量 测 误差 的 信息 。 


根据 正 交 变换 不 改变 矩阵 的 迹 的 原理 (参见 第 十 四 章 )， 依照 式 XX S diaga), A 


m n 


tr(X! X) = >) Sa, =tr(Q'X'XQ) — t (UU) 


i-1j-1 


Ag. 0 c4 0 0 


0 Az ” 0 0 


— trace! 0 O ** Aq 0 


O. Q e 0 0 











SSi 


这 些 特 征 值 亦 可 分 成 两 组 ， 一 组 由 主因 子 阵 给 出 ， 而 另 一 组 则 由 误差 引出 ， 即 


m n 


tr(X* X^) = 2) J r}? 一 tr(OIXHX+TO) 


i=1j=1 


417 l 
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— w(Q'QU 'U* OO) —tu(U U^) 


=trace| 0 0 = àa 0 … 0 一 A 








0 0 m 0 0 m 0 





EERE P, yoa H SUE EAE ERSTE oc AR E R E ESR x —36: Ww CA Sp pude, 
而 且 还 利用 了 式 (6-130) 和 式 (6-131) 表示 的 关系 及 式 (6-128) 和 式 (6-129) 表示 的 
矩阵 的 正 交 特性 。 以 后 ,为 以 示 区 别 ， 特 地 在 前 & 个 特征 值 上 标 一 标记 “十 ”， 即 47 (i 二 
1，2，…，d) ， 以 表示 它们 是 来 自主 因子 阵 ; 而 看 后 (n 一 d) 个 特征 值 上 标 以 “o”， 即 记 
HAG 二 1，2,，…,d) ,来 表示 它们 皆 来 自 误差 。 这 样 ， 则 有 


> > + Y as 


i=d+1 














n d 
用 式 rX) — 91A 减 去 式 trCX+IXT+) 一 >)， 4;， 可 得 
i=l i=l 


m m 


»3 > cud rj)- > à? 一 2; j oij 
i=lj=d+1 i=d+1 i=lj=d+l1 
此 式 说 明 ， 只 要 主因 子 数 d 能 正确 确定 ， 则 后 (d) 个 所 剩 的 特征 值 48G 一 1,2,…,d) 
之 和 实际 上 是 完全 由 误差 的 平方 和 所 构成 。 
仿 此 可 定义 由 式 (6-125) 所 表示 的 纯 误 差 在 整个 因子 空间 Lq; (i 二 1,2,…,n)j」 上 的 特 
征 值 之 和 : 








>- 2e $ Dar (6-132) 
在 此 ， 以 上 角 标 e 来 表示 来 自 误差 。 所 以 

e > dy (6-133) 

Der » (059^ (6-134) 

x 


i-lj-d- 





是 因为 在 进行 正 交 变换 时 ， 误 差 的 协 方差 阵 的 迹 也 是 不 变 的 。 结 合式 (6-132) — X 





w 
n 
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(6-134)， 又 因 


m 


n d 
2) 25 Gg! = Pas 
j=l 


i=l j=1 


m m 


SS Cej)? 23 Xe x. (o$,)? (6-135) 
i—1j-l i=l j=1 i=lj=d+ 

此 式 左 边 为 量 测 误差 平方 和 ， 它 同样 可 表示 为 误差 在 ”个 全 因子 空间 的 投影 平方 和 ， 其 中 

第 一 项 代表 量 测 误差 在 主因 子 轴 上 的 投影 平方 和 ， 它 在 因子 分 析 中 不 能 被 除去 ， 第 二 硕 代表 

量 测 误差 在 次 因子 轴 上 的 投影 平方 和 ， 它 在 因子 分 析 过 程 中 可 以 被 剔除 。 这 三 项 都 与 所 谓 的 

剩余 标准 偏差 有 关 ， 即 





m n 


mn(RSD)? = >， >) e)? (6-136) 
i=1j=1 
m d 

md (RSD)? = $1 9 o} )? (6-137) 
i=l j=l1 

m(n —dXYRSD? =>) M (cy)2 一 5 a? (6-138) 


i—1j-—d-H i=d+1 
这 三 个 表达 式 告 诉 我 们 ， 可 以 从 不 同 的 途径 来 求 RSD。 将 上 述 三 式 代入 式 (6-135)， 并 两 
边 同 除 以 nm 得 ， 
(RSD)? — (d /n) (RSD)? 4- [ $n — d)/n (RSD)? 
一 重要 的 恒等式 就 总 结 了 上 述 的 误差 理论 。 在 因子 分 析 中 ，RSD 可 被 分 为 两 项 : EAR 


差 (GEO 和 抽出 误差 〈(XFE )。 换 言 之 ， 剩 余 标准 误差 (RSD)， 即 真实 误差 (RE)， 可 由 一 
勾 股 定理 的 方式 表 出 : 





(RE)? = (IE)? + (XE)’ 


在 此 
RE —RSD 
— /d /n (RSD) 
=n — d)/n (RSD) 


XX (6-138) 十 分 重要 ， 是 它 将 RSD (或 RE) 与 可 通过 计算 机 运算 求 得 的 特征 值 4; 
(j 二 1,2,…,n) 联系 起 来 。 这 说 明 只 需 算出 协 方差 阵 的 特征 值 ， 就 可 将 RE、IE 、XE 都 分 
别 求 出 来 ， 为 确定 体系 的 独立 组 分 数 d 奠定 了 基础 。 

(三 ) 主因 子 数 确 定 方法 
由 于 存在 量 测 误差 ， 要 精确 确定 未 知 混合 体系 中 的 独立 组 分 数 〈 主 因子 数 ) 的 确 是 一 个 
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相当 困难 的 任务 。 为 解决 这 一 问题 ,已 提出 很 多 种 方法 ， 它们 可 分 为 两 大 类 : 中 基于 量 测 误 
差 大 小 已 知 的 方法 ; 对 量 测 误差 大 小 无 可 估计， 只 根据 计算 所 得 结果 来 作出 近似 判断 的 方法 。 

基于 量 测 误差 大 小 已 知 的 方法 : 这些 方法 的 基点 是 假设 量 测 误差 已 知 ， 然 后 与 算出 的 量 
测 数据 矩阵 X 的 特征 值 ， 并 根据 某 一 原则 取 某 个 主因 子 数 所 求 出 的 误差 大 小 进行 比较 ， 如 
该 算出 的 真实 误差 (REO 落 入 了 已 知 量 测 误差 的 范围 ， 则 据 此 可 确定 主因 子 即 体系 的 独立 
组 分 数 。 剩 余 标准 偏差 法 即 属于 这 种 方法 。 

量 测 误差 大 小 未 知 的 方法 : 这 些 方法 毋 需 已 知 量 测 误差 ， 但 因 一 般 可 设 量 测 误 差 为 零 均 
等 方差 且 服 从 正 态 分 布 的 不 相关 和 白 噪 声 ， 故 可 据 此 设计 一 些 经 验 函 数 来 估计 主因 子 数 。Ma- 
linowski 设计 的 因子 指示 函数 法 [181 和 Fisher 方差 比 [91 就 是 这 样 的 例子 ， 可 用 于 在 量 测 误差 
未 知 时 确定 主因 子 即 体系 中 的 独立 组 分 数 。 

l. 剩余 标准 偏差 法 (真实 误差 法 ，RE ik) 

该 法 由 Malinowski 提出 ， 其 计算 式 由 下 式 给 出 ， 即 















































m —dYXRSD? =); 2) G*— >a, 


i=lj=d+1 i=d+1 











RSD 与 真实 误差 (RE) 是 同一 的 ， 从 式 (6-136) 可 以 看 出 ， 它 们 的 大 小 就 代表 了 e; 均 方 
差 的 大 小 ， 将 上 式 重新 排列 可 得 : 

















RE? 一 RSD2? = >; A?/[mi —4)] (6-139) 
上 


i=d+1 














上 式 为 我 们 提供 了 一 个 很 好 的 确定 主因 子 数 的 标准 ， 其 判别 过 程 如 下 : 
首先 先 把 最 大 特征 值 所 对 应 的 特征 向 量 看 成 主因 子 轴 (主轴 )， 其 余 的 都 看 成 次 要 因子 
(次 轴 ) 而 包括 在 上 式 中 来 计算 RSD， 并 将 此 计算 值 与 已 知 的 量 测 误差 进行 比较 。 如 果 
RSD 大 于 已 知 的 量 测 误差 ， 那么 则 说 明 主 因子 数目 就 等 于 1， 该 因子 空间 是 一 维 的 。 仿 此 
可 继续 考虑 第 二 大 的 特征 值 ， 如 此 时 RSD 仍然 大 于 已 知 量 测 误差 ， 则 需 继续 考虑 第 三 个 特 
征 值 所 对 应 的 特征 向 量 ， 如 此 下 去 直至 当 取 到 某 个 特征 值 所 对 应 的 特征 向 量 ， 它 所 对 应 的 
RSD 已 与 所 知 量 测 误差 近似 相等 ， 这 时 所 有 包含 的 主轴 中 的 特征 向 量 的 个 数 即 为 体系 中 所 
含 独立 组 分 的 个 数 。 

2. 因子 指示 函数 法 (IND 法 ) 

因 量 测 误差 未 知 ， 不 可 能 像 上 述 方 法 那样 采用 比 大 小 方法 来 确定 主因 子 轴 ， 所 以 IND 
法 是 利用 某 一 原则 来 构造 一 个 因子 数 的 函数 ， 随 着 主因 子 数 的 变化 这 个 函数 将 在 某 一 点 上 达 
到 极 小 ， 此 时 ， 该 极 小 点 所 对 应 的 就 是 主因 子 数 。 为 此 ， 定 义 了 如 下 的 IND 函数 : 


IND =RSD/(n— k)? 


利用 这 一 IND 指示 函数 ， 可 从 个 特征 值 4; G —1. 2, n. d) 中 ， 逐 一 计算 不 同 的 & 所 对 
应 的 IND 值 ， 即 按 式 (6-139) 定义 的 RSD 代入 上 式 。 当 为 真实 的 主因 子 数 时 ，IND K 
数 将 出 现 最 小 值 ， 此 最 小 值 所 对 应 的 & 即 为 我 们 要 求 的 主因 子 数 〈 混 合体 系 的 独立 组 分 数 ) 。 
值得 指出 的 是 ， 对 于 一 般 纯 组 分 光谱 重 又 不 严重 的 体系 ， 且 量 测 误差 确 为 零 均 等 方差 且 不 相 
关 白 噪声 时 ， 此 法 确 可 得 到 正确 的 主因 子 数 ,， 但 是 当 体 系 纯 组 分 光谱 重 伙 严重 时 ,或 量 测 误 
差 为 不 等 方差 的 噪声 时 ， 此 法 难以 得 到 正确 答案 。 表 6-17 示 出 了 一 个 用 IND 函数 来 判别 主 
因子 数 的 实例 。 
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体系 中 组 分 数 的 IND. 法 确定 























j Àj RSD INDX 10? 

1 19. 193396 0. 013461 24. 16 

2 0. 368079 0. 003208 6. 33 

3 0. 009063 0. 002110 3. 86 

4 0. 004414 0. 000960 3. 83 

5 0. 000294 0. 000889 3. 36 

6 0. 000260 0. 000787 8. 74 

7 0. 000141 0. 000760 19.0 

8 0. 000132 0. 000704 70.4 

9 0. 000099 

3. Fisher 方差 比 法 

由 前 述 因 子 分 析 的 误差 理论 可 知 ， 特 征 值 4;G 二 1,2,…,n) 就 代表 量 测 和 矩阵 的 方差 ， 所 
以 ， 它 们 的 比值 就 可 相当 于 Fisher 方差 比 ; 男 一 方面 ， 从 统计 意义 上 讲 ， 主轴 和 次 轴 所 对 
应 的 特征 值 代表 了 不 同 的 意义 ， 即 分 别 代表 了 组 分 光谱 信息 和 量 测 误差 的 信息 ， 故 这 两 种 特 














征 值 应 存在 显著 性 差异 ，Fisher 方差 比 法 的 基本 原理 就 在 于 此 。 值 得 提出 的 是 ，Fisher 方差 
比 计算 要 求 被 判断 的 样本 相互 独立 且 服 从 正 态 分 布 ， 因 所 有 的 因子 轴 〈 即 特征 向 量 ) 是 相互 
正 交 的 ， 故 独立 性 这 一 条 件 完全 满足 ， 而 数据 的 残 差 一 般 都 服从 正 态 分 布 ， 所 以 ， 特 征 值 比 
m d n 


检验 对 上 述 的 两 个 统计 条 件 是 基本 上 满足 的 。 根 据 式 OX" X0 9» AS 一 Aj. Hf 
i-1j-1 j=d+ 
将 误差 特征 值 〈 次 轴 ) 对 应 方差 表述 为 : 





























Var(0) = >} aj/G-—4) 


j=k+ 











对 应 于 主轴 的 特征 值 主 要 来 自 组 分 量 测 谱 的 贡献 ， 因 显著 地 大 于 误差 特征 值 (次 轴 ) 对 
应 的 方差 ， 可 记 为 Var (CR)。 由 于 特征 值 一 般 都 是 按 大 小 顺序 排列 ， 因 而 可 以 这 样 来 构造 
Fisher 检验 : 





























F(1, n — k) 2 Var(k)/Var(0) =à (n — / >) à; 
1 一 A 十 1 

式 中 ，1 和 (n 一 &) 分 别 表示 Fisher 方差 比 检验 的 自由 度 ， 这 是 因为 每 一 个 特征 值 对 
应 于 一 个 自由 度 。 将 & 从 nn 取 起 ， 对 应 不 同 的 & 值 ， 都 进行 一 次 Fisher 方差 比 检验 ， 直 至 
所 取 的 & 得 到 了 具有 显著 性 差异 结果 为 止 。 

值得 指出 的 是 ， 以 上 的 主因 子 数 的 确定 方法 都 是 从 用 整个 矩阵 的 特征 值 (它们 反映 了 整 
个 协 方差 阵 的 方差 ) 来 考虑 的 ， 对 于 这 样 的 方法 ， 常 被 称 为 全 局 因子 分 析 法 。 在 以 后 的 讨论 
中 我 们 可 以 看 到 ， 对 于 一 些 组 分 量 测 光 谱 重 到 不 严重 且 组 分 相对 浓度 相差 不 大 的 混合 物体 
系 ， 这 类 方法 一 般 可 以 得 到 真实 解 。 但 是 ， 对 于 一 些 组 分 量 测 光谱 重合 严重 且 组 分 相对 浓度 
相差 很 大 的 混合 物体 系 ， 此 类 方法 就 一 般 不 可 靠 了 ， 此 时 宜 用 局 部 因子 分 析 法 来 估计 体系 的 
独立 主因 子 数 。 有 关 这 一 结论 的 论述 ， 将 在 以 后 的 讨论 中 逐步 展开 。 

另外 ， 因 为 特征 向 量 ， 其 中 特别 是 载荷 矢量 就 反映 了 组 分 量 测 谱 的 综合 信息 ， 所 以 主因 
子 数 的 确定 方法 也 可 以 从 特征 向 量 的 角度 来 考虑 ， 此 法 的 要 点 就 是 直接 观察 特征 矢量 ， 那 些 
只 包含 误差 信息 的 特征 向 量 应 该 就 对 应 于 次 轴 。 有 关 这 一 点 的 论述 ， 也 将 在 以 后 的 讨论 中 乏 
步 展 开 ， 并 给 出 实例 加 以 说 明 。 
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4. 子 空间 比较 法 

实际 上 ， 利 用 化 学 混合 体系 的 量 测 数据 矩阵 直接 进行 组 分 数 的 确定 ， 一 直 是 化 学 计量 学 
研究 的 难点 问题 ， 它 在 物理 化 学 和 分 析 化 学 中 有 着 十 分 重要 的 应 用 ， 如 不 可 分 离 的 平衡 体系 
中 及 联 用 仪器 所 产生 的 二 维 数 据 中 的 物种 数 的 确定 等 。 为 此 ， 人 们 进行 了 大 量 的 研 
究 [188~193] 。 一 般 说 来 ,采用 前 述 的 主 成 分 分 析 方 法 对 数据 矩阵 进行 分 解 ， 即 比较 特征 值 的 
因子 指示 函数 法 (IND 法 ) 或 Fisher 方差 比 法 或 目 视 特征 向 量 来 确定 即 可 。 然 而 ， 当 数据 
TAREN 普 相似 度 较 高 或 含有 不 等 性 方差 相关 噪声 时 ， 基 于 方差 分 析 的 主 成 分 分 析 法 较 难 

得 到 正确 结果 。 子 空间 比较 法 由 笔者 研究 小 组 提出 [29 。 该 法 的 思路 虽 很 简单 ， 可 它 对 一 

数 法 AND 法) 或 Fisher 方差 比 法 难于 得 到 正确 结果 的 数据 ， 一 般 都 能 给 
出 正确 答案 ， 是 一 个 很 有 效 的 方法 。 它 通过 不 同 主因 子 分 解 方法 所 提取 的 关键 向 量 为 基 ， 继 
比较 所 张 成 的 子 空间 的 差异 。 该 法 在 体系 量 测 谱 相似 度 高 等 复杂 情况 下 ， 仍 能 正确 确定 体系 
的 组 分 数 。 

对 于 给 定数 据 阵 ， 可 通过 不 同方 法 确定 其 主 成 分 向 量 。 如 奇异 值 分 解 (参见 第 十 四 章 )、 
正 交 投影 法 (orthogonal projection approach, OPA)U99, Simplisma!*9 和 简化 的 Borgen 
方法 (simplified Borgen method. SBMOU?1 4%., pg jp ERS qu] 5 ge 3e B IR] — 4 Pr PR AR. 
所 张 成 的 主要 因子 空间 是 一 致 的 ， 应 可 相互 线性 表示 。 但 若 包含 多 余 的 来 自 噪声 的 因子 时 ， 
oem 选 出 的 主 成 分 向 量 就 会 因 方 法 而 异 ， 而 使 两 个 子 空间 不 能 相互 线性 表 































































































， 通 过 设计 适当 空间 差异 函数 ， 则 可 用 来 估计 体系 组 分 数 。 
设 通过 不 同方 法 已 获得 两 组 主 成 分 基 向 量 ， 经 Schmidt 一 组 记 为 = 
[fi,f2,: sf al. 男 一 组 记 为 G= [g1,82,°"*,8A ]. F. G PAS d. j j 量 分 别 记 为 fis 





gi. TZE F, G 的 维 数 为 4。 若 以 (g;) 为 基 表 示 f; 可 得 





A 
=) (gf gi +e; 
j=1 
向 量 e; Hfi 中 未 能 被 (g) 表示 的 部 分 ， 正 交 于 (gj;)}， 对 上 式 向 量 fi 取 模 平方 可 得 


A A 
Ic fifi 2405 f OG aO Gi £O E Gieo = 2, Gg D! + Ge? 





由 上 式 可 知 ， Xy <1 f EG anie mH, Digo, 若 下 ，G 张 成 的 


主 成 分 子 空 间 相 同 ， 意味 着 所 有 f; HEG 中 ; 同 理 ， BH g 亦 在 F 中 ， 故 可 通过 定义 下 
式 来 衡量 了 在 G 中 的 程度 : 














A 
TCA) =), (fig)? =Tr(F'GG'F)G —1,2,7,A5j =1,2,..,A) 
。) 表示 对 和 抢 阵 求 迹 ， 即 矩阵 (F'GG'FO 对 角 元 素 之 和 。 显 然 0 二 T(A) 二 A ， 故 可 
MONA 间 的 差异 程度 








DCA) —A — TCA) 


式 中 , DA) 称 为 子 空间 差异 函数 。 
^ F;-—[fi. fa mets fi] G; —[gi: g235 TTi gil. TG) =Tr(G;F;), Di) =i 一 
TG), Æ F MG 几乎 相同 时 ， 即 当 引 入 因子 数 为 体系 组 分 时 , D (i) 将 接近 于 零 ， 但 如 继续 
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将 误差 向 量 包 含 其 中 时 ， 则 子 空间 差异 函数 D GO 会 明显 变 大 ， 即 从 接近 于 堆 (或 接近 误差 
水 平 ) 变 成 显著 大 于 零 ， 据 此 就 可 确定 该 体系 组 分 数 。 但 需 注 意 ， 在 有 不 等 性 方差 存在 时 ， 
误差 向 量 作为 主 成 分 基 向 量 只 会 影响 其 方差 ， 而 对 其 向 量 的 形态 影响 不 大 ， 故 此 法 在 不 等 性 
方差 存在 时 将 仍然 有 效 。 如 上 所 述 ， 可 通过 多 种 算法 确定 主 成 分 基 向 量 ， 在 此 我 们 仅 采 用 奇 
异 值 分 解 和 简化 的 Borgen 法 [1 得 到 的 主 成 分 基 向 量 作 为 例子 。 简 化 的 Borgen 法 也 是 首先 
对 数据 阵 进 行 奇 异 值 分 解 ， 然 后 通过 一 定 的 指标 确定 数据 的 主 成 分 关键 行 或 关键 列 ， 这 些 主 
成 分 关键 行 或 列 构成 数据 的 一 组 主 成 分 基 向 量 。 男 一 组 为 由 奇异 值 分 解 所 得 的 主 成 分 基 向 量 。 

下 面 我 们 将 以 两 个 实际 例子 来 说 明 本 法 的 实际 效果 。 一 组 数据 是 关于 通过 流动 注射 分 析 
研究 饮 离 子 在 盐酸 溶液 中 的 络 合 行为 ， 由 134 条 光谱 组 成 ， 试 验 条 件 见 文献 [198]。 在 盐酸 
溶液 中 ， 馈 与 氧 离子 络 合 可 形成 如 下 6 种 离子 : BiCl?+ 、BiCl2 , BiCl;, BiCl; 、BiCl: 、 
BiCl”。 样 品 液 滴 随 载 液 流动 过 程 中 两 侧 与 HCL 发 生 反 应 ， 从 外 到 内 可 依次 生成 BIC . 
BiCl? , BiCl,; , BiCl;, BiCl; , BiCP^ ， 最 中 间 为 未 反应 的 Bi3+ 。 因 此 量 测 的 数据 可 分 为 
前 后 两 部 分 ， 每 部 分 的 组 分 数 为 7。 从 表 6-18 的 奇异 值 大 小 来 看 ， 前 5 个 因子 占 相 应 部 分 奇 
异 值 总 和 的 99% 左 右 ， 似 乎 体系 的 组 分 数 为 5， 但 这 主要 是 由 于 各 个 络 合 物 的 光谱 相似 程度 
较 高 引起 的 。 在 实际 分 析 中 ， 不 同体 系 的 光谱 相似 程度 噪声 水 平 差别 较 大 ， 因 此 通过 基于 方 
差分 析 的 比较 奇异 值 或 其 平方 大 小 的 方法 丝 难 于 判断 体系 的 组 分 数 。 图 6-51 显示 了 子 空间 
比较 法 所 得 结果 。 在 A 为 7 时 ， 子 空间 差异 仍 很 小 ， 过 此 点 则 差异 显著 增 大 ， 故 试验 中 体 
系 的 组 分 数 为 7， 结 果 与 实际 过 程 相 吻合 。 


流动 注射 分 析 数 据 的 奇异 值 及 通过 SBM 法 确定 的 关键 行 






















































































序号 1 p 3 4 5 6 gi 8 9 
行 号 66 30 17 41 24 51 10 1 3 
奇异 值 6.922 | 2.287 | 1.729 | 0.566 | 0.252 | 0.063 | 0.018 | 0.004 | 0.003 
第 1 部 分 百分比 58.31 | 77.58 | 92.15 | 96.91 | 99.04 | 99.57 | 99.72 | 99.75 | 99.77 
行 号 69 83 101 77 88 74 133 129 102 
— 奇异 值 7.271 | 2.709 | 1.727 | 0.606 | 0.282 | 0.086 | 0.034 | 0.009 | 0.004 
第 2 部 分 _ 
百分比 56.99 | 78.22 91.76 | 96.51 | 98.73 | 99.40 99.66 | 99.73 99. 76 



















































5 6 
关键 向 量 数 
(a) 第 1 部 分 


















5 6 7 8 9 10 
关键 向 量 数 

(b) 第 2 部 分 

子 空间 差异 函数 确定 流动 注射 分 析 数据 的 组 分 数 
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了 解 聚合 行为 对 研究 反应 机 理 等 过 程 有 重要 的 意义 。 醇 在 浴 液 中 通过 氢 键 聚合 。 在 羟基 
光谱 区 ， 素 合体 的 OH 键 对 应 的 光谱 响应 与 单 体 的 OH 键 的 光谱 有 一 定 的 差异 。 醇 的 聚合 
为 一 动态 过 程 ， 随 溶液 中 醇 浓 度 变 化 而 变化 ， 因 此 ， 通 过 分 析 不 同 浓度 的 醇 溶液 的 光谱 可 推 
测 醇 的 聚合 行为 。 在 此 ， 男 一 例子 就 是 采用 近 红 外 光谱 法 来 研究 醇 在 非 极 性 溶剂 CCl 中 的 
聚合 行为 。 

采用 带 有 光纤 探头 的 Perstorp Analytical 6500 近 红 外 透射 反射 光谱 仪 为 检测 仪器 ， 以 
四 氧化 碳 为 溶剂 ， 用 微量 注射 器 依次 加 入 醇 ， 包 括 正 丙 醇 、 正 丁 醇 、 正 戊 醇 、 正 己 醇 和 正 庚 
醇 ， 然 后 记录 光谱 。 光 谱 量 测 范 围 为 1100 一 2500nm， 光 谱 间 隔 为 2nam， 醇 的 浓度 变换 范围 
为 0.01~1. 00mol/L。 其 中 ,羟基 的 组 频 区 在 扣除 光谱 背景 后 用 于 进一步 分 析 。 

图 6-52 示 出 了 正 庚 醇 的 三 维 图 。 在 溶液 中 ， 不 同 聚 合 形式 的 光谱 相似 ， 通 过 常规 基于 
奇异 值 大 小 的 方法 较 难 确定 化 学 秩 。 表 6-19 列 出 了 不 同 醇 数据 的 奇异 值 ， 显 然 ， 只 前 两 个 
奇异 值 显著 。 图 6-53 (a) 标示 了 SBM 所 选 的 关键 向 量 在 平均 光谱 上 的 位 置 ， 第 4、5 关键 
向 量 的 位 置 在 基线 附近 ， 应 为 噪声 ， 从 选择 的 关键 向 量 上 看 似乎 体系 的 化 学 秩 为 3。 图 6-53 
(CO. 示 出 了 利用 子 空间 差异 函数 来 估计 化 学 秩 的 结果 。 当 有 3 个 主 成 分 关键 向 量 时 ， 子 空 
间 差 异 很 小 ， 而 主 成 分 关键 向 量 为 4 时 ， 差 异 明显 增 大 ; 再 后 ， 子 空间 差异 函数 不 断 增 加 。 
这 表明 第 4 及 其 后 的 向 量 主要 是 噪声 的 影响 ， 故 子 空间 比较 法 确定 体系 的 化 学 秩 为 3。 图 5- 
4 列 出 了 其 他 醇 的 子 空间 差异 分 析 图 。 这 些 醇 均 在 关键 向 量 数 为 3 时 ， 子 空间 差异 较 小 。 因 
此 ， 子 空间 比较 法 确定 体系 的 化 学 秩 为 3。 此 结果 与 用 中 红外 谱 所 测 结论 一 致 。 可 以 解释 为 
醇 在 溶液 中 以 不 同 的 聚合 度 结 合 ， 通 过 氧 键 可 形成 二 聚 体 、 三 聚 体 等 多 种 形式 。 当 醇 分 子 形 
成 多 聚 体 时 ， 可 形成 开 链 的 多 聚 体 ， 也 可 能 形成 环 状 多 聚 体 。 即 溶液 中 单 体 多 聚 体 的 羟基 根 
据 其 聚合 模式 可 分 为 3 类: 中 单 体 上 的 羟基 ， @ 开 链 多 聚 体 上 的 羟基 ， ORMER E 
基 。 聚 合体 随 其 聚合 模式 不 同 对 近 红 外 光谱 的 贡献 而 不 同 。 因 此 ， 本 文体 系 中 化 学 秩 对 应 于 
聚合 的 模式 数 。Brink 等 [通过 测量 环 己 烷 溶液 中 乙醇 的 介 电 常数 表明 : 溶液 在 较 低 浓度 
时 侦 极 矩 较 大 ， 而 在 溶液 浓度 较 高 时 ， 洲 液 的 偶 极 矩 较 小 。 据 此 ， 可 推断 在 低 浓度 时 ， 近 红 
外 光谱 主要 是 来 自 单 体 及 开 链 多 聚 体 上 的 羟基 的 作用 。 随 着 醇 浓 度 的 增加 ， 越 来 越 多 的 环 状 
多 聚 体形 成 。 这 一 试验 间接 验证 了 用 子 空 间 比 较 法 确定 化 学 秩 的 合理 性 。 文 中 的 例子 表明 ， 
子 空间 比较 法 在 体系 组 分 含量 低 且 光谱 相似 很 高 等 复杂 情况 下 ， 仍 可 确定 体系 的 化 学 秩 ， 有 具 
有 较 高 的 应 用 价值 。 
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0.12 
0.10r 
0.08 F 
= 0.06 F 
0.04 - 
0.02r 4 5 
1950 2000 2050 2100 2150 2200 
Anm 
(a) 关键 向 量 在 平均 光谱 上 的 位 置 
4 
aL 
a 2r 
Ic 
I 0 
XU ER 
(b) 子 空间 差异 函数 确定 庚 醇 数据 的 化 学 秩 
子 空间 比较 法 确定 庚 醇 数据 的 化 学 秩 
3.0 5 
2.5r 4L 
20- 
3 H 
Q 1.5 a 
Lor 2r 
0.5- iE 
0 1 1 i 0 1 Í 1 
0 2 4 6 8 10 0 4 6 8 10 
(a) 1- 已 醇 (b) 1- 戊 醇 
3.5 3.0 
3.0r 25L 
2.5} 
2.0 F 
2.0 F 
a Q 1.5} 
1.5} 
1.04 1.0 F 
0.5- 0.5- 
0 0 1 1 1 
0 0 4 6 8 10 
关键 向 量 数 关键 向 量 数 
(c) 1- 丁 醇 (d) 1- 丙 醇 
子 空间 差异 函数 确定 体系 的 化 学 秩 
K 6-19 不 同 醇 近 红外 光谱 数据 奇异 值 分 析 结 果 
Eom B m X m T E 两 m 
v 奇异 值 比例 /% | 奇异 值 比例 /% | 奇异 值 | 比例 /% | 奇异 值 | 比例 /% | 奇异 值 比例 /% 
1 6.149 84.58 7,918 86. 58 8. 008 86. 17 9. 536 88. 50 8. 412 88. 16 
2 1. 034 14. 22 1. 058 12. 52 1. 191 12. 82 1.168 10. 84 1.075 11. 27 
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续 表 
序号 B 醇 B 醇 X HB T B m B 
奇异 值 | 比例 /% | 奇异 值 | 比例 /% | 奇异 值 | 比例 /2% | 奇异 值 | 比例 /2% | 奇异 值 | 比例 /% 
3 0. 051 0. 70 0. 045 0. 53 0. 052 0. 56 0. 027 0. 25 0. 028 0. 30 
4 0.014 0. 19 0. 013 0. 15 0. 012 0.13 0. 017 0. 15 0. 008 0. 08 
5 | 0.0091 0. 12 0. 0078 0. 09 0. 009 0.11 0. 011 0. 10 0. 006 0. 07 
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在 确定 了 体系 的 独立 组 分 数 以 后 ， 对 黑色 分 析 体系 的 解析 的 下 一 步 就 是 分 辨 出 纯 物 种 的 
光谱 了 。 最 早 提出 光谱 分 辨 基本 思想 的 是 自 模式 曲线 分 辨 法 CSMCR)089J。 根 据 朋 伯 - 比 耳 
定律 ， 本 节 所 讨论 的 混合 物 量 测 谱 矩 阵 X， 实 际 上 可 表 为 两 个 和 矩阵 的 乘积 ， 即 











X —CS' 十 五 (6-140) 


式 中 ，C 称 为 浓度 分 布 矩 阵 ， 它 是 由 每 个 不 同 纯 组 分 的 浓度 矢量 构成 ， 为 一 On XD 

阶 的 矩阵 ; S 由 纯 组 分 的 量 测 光谱 所 组 成 ， 为 一 (n Xd) 阶 矩 阵 。 对 黑色 分 析 体 系 进 行 分 
辩 的 主要 目的 就 在 于 求 得 浓度 分 布 和 矩阵 和 纯 组 分 的 量 测 光 谱 和 矩阵。 自 模 式 曲 线 分 辨 法 的 主要 
思路 就 是 先 求 出 纯 物 种 的 光谱 ， 亦 即 纯 组 分 的 量 测 光谱 矩阵 8S， 也 就 是 先 将 黑色 分 析 体 系 
“白化 ”， 继 而 利用 最 小 二 乘法 即 可 求 得 浓度 分 布 矩 阵 C， 以 完成 对 黑色 分 析 体 系 的 同时 定性 
定量 解析 。 
因 在 本 书 将 要 讨论 的 黑色 分 析 体 系 的 分 辩 方 法 大 都 源 出 于 自 模式 曲线 分 辨 法 ， 所 以 我 们 
首先 将 对 此 法 进行 详细 的 介绍 。 男 外 ， 基 于 自 模式 曲线 分 辨 法 而 发 展 的 很 多 方法 也 主要 是 基 
于 矩阵 类 型 的 数据 ， 即 式 〈6-140)， 所 以 ， 我 们 将 它们 都 统称 为 矩阵 分 辨 方法， 而 与 基于 张 
量 数据 的 分 辨 方法 加 以 区 别 。 

《一 ) 目 模 式 曲线 分 辩 法 

自 模式 曲线 分 辨 法 主要 基于 主 成 分 分 析 (PCA)， 其 基本 假设 只 有 两 条 : ORG Y E 
谱 符 合 线性 加 合 性 ; 外 波谱 量 测 值 只 能 为 正 值 。 因 这 两 条 假设 要 求 条 件 对 一 般 波 谱 仪器 所 产 
生 的 数据 皆 可 成 立 ， 故 其 适用 性 较 广 。 该 法 最 早 由 Lawton 和 Sylvester 提出 5 ， 他 们 以 两 
组 分 混合 物体 系 的 纯 物 种 光谱 解析 为 其 目标 ， 以 得 到 它们 的 可 行 解 ， 后 被 拓 广 至 三 组 分 或 三 
组 分 以 上 的 混合 体系 。 因 随 着 组 分 数目 的 增加 ， 纯 组 分 光谱 的 可 行 解 域 确定 的 困难 显著 增 
加 ， 为 叙述 方便 ， 本 书 将 其 分 成 两 步 加 以 介绍 。 

1. 两 组 分 体系 的 纯 组 分 波谱 辨析 

【基本 思路 】 

对 于 任 一 两 组 分 混合 物 波谱 ,根据 朗 伯 - 比 耳 定律 ， 可 表示 为 












































































































































xi —egasidecasi CECI (6-141) 


AF, os; G 二 1,2) 为 未 知 组 分 的 纯 物种 波谱 矢量 ， 由 在 某 特定 波长 区 域 所 测 得 的 波谱 非 
负 量 测 值 组 成 ， 且 满足 s; 二 1， 在 此 ,7 为 波谱 量 测 点 数 ; ca 和 ci 分 别 表 示 两 纯 物 种 的 相 
对 浓度 ， 且 满足 cj1 闫 kc;s， 上 为 任意 比例 常数 ， 此 条 件 说 明 各 混合 物 中 的 相对 浓度 应 不 尽 对 
应 成 比例 ; m 为 混合 样本 个 数 。 一 般 要 求 m 和 7 都 要 大 于 体系 的 纯 组 分 数 〈 此 例 为 2) 。 

总 的 说 来 ， 自 模式 曲线 分 辨 法 的 第 一 步 是 对 数据 和 矩阵 X 进行 主 成 分 分 析 ， 然 后 ， 通 过 
前 述 的 两 个 约束 条 件 来 求 出 sG —1. 20 的 可 行 解 域 。 
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【基本 算法 】 

两 组 分 体系 自 模式 曲线 分 辨 法 的 具体 计算 步骤 如 下 。 

(OD 计算 混合 样本 组 成 的 量 测 矩 阵 的 协 方差 阵 ， 继 对 其 进行 正 交 变换 ， 分 别 求 出 其 特征 
值 和 特征 向 量 ， 即 


T 














Q'X'XQ = 0 0 e Àd 0 TT 0 








RP, Q NIER E f] RB E SA; 为 相应 的 特征 值 ， 并 设 Ai SA GS 
1,2.,**.n—10), AE— mii ie zs RIA. ATZARA, EE X 的 秩 为 2， 即 除 
1 和 外， 其 余 特 征 值 都 会 接近 于 零 。 取 Ai; A MXARE E q q ARA Py 
EEEE Q, BD 















































Q* 一 [qi q2 


正 交 和 矩阵 Q* J&— (1X2) 阶 的 矩阵 ， 它 的 每 一 列 都 含有 7 个 元 素 ， 即 相当 于 波长 的 
量 测 点 数目 ， 在 因子 分 析 中 常 被 称 为 载荷 矢量 ， 在 多 元 分 辩 中 也 常 称 为 抽象 量 测 谱 。 

从 线性 代数 的 知识 可 知 (参见 第 十 四 章 )， 由 s1、s2 所 张 成 的 线性 空间 y(s) 与 由 491、 
qz 所 张 成 的 线性 空间 y(q) 相等 ， 即 y(s) — 9D ， 它 们 可 以 相互 线性 表 出 ， 























s} Stagi ttg (j=1, 2) (6-142) 
再 从 式 (6-141) 可 知 
xi 一 Cil8]1 eis? 
=c Gui Etg) Hci lagi 十 t2292) 
= (cati Hc;ta)qi H Citi 十 ci2t22)g2 
=u aqi F uisq5 G =1, 2, 5. m) 


Kais qb K xi 都 为 已 知 ， 且 qi» qo 相互 正 交 ， 故 可 容易 求 出 uas uis: 





xig1 一 2ig1g1 十 xi2g2g1 
一 xi19191 


则 有 


FH 10， 化 学 计量 学 





qk 


E 分 析 化 和 
uj —xiq1/q1di 一 Xi91 
同 理 可 得 
Ui» —XiQ2/05Q» 一 Xig2 
在 此 我 们 利用 了 正 交 和 抢 阵 的 性 质 : qs 二 0 flq;—1 G=1, 2), 
(2) 约束 条 件 的 计算 
CD 波谱 量 测 值 只 能 为 正 值 之 约束 条 件 的 计算 。 从 式 (6-142) 可 知 


Sji —tüuqi +tj2q2; 之 0 (j =1,2; i—1,.2,.:,.n) 


亦 即 
tj; Z— min | qu/qs; | tjs “qz 70 (6-143) 
tj; & max | qi; /qs; | tji 5. qo <0 (6-144) 





上 述 不 等 式 之 所 以 成 立 ， 是 因为 用 主 成 分 分 析 方 法 所 得 的 第 一 特征 矢量 qi 的 每 一 元 素 qi; 
(i 二 1,2,…,n) 皆 大 于 或 等 于 零 。 
© 组 分 浓度 值 只 能 为 正 值 之 约束 条 件 的 计算 。 仍 从 式 〈6-142) 出 发 ， 有 





Sı 一 上 1191 T t1242 





$2 =t21q1 T t2242 


如 采用 矩阵 的 表示 形式 ， 上 式 可 变 为 : 


$1 tiu tiz |q 
= (6-145) 
$2 i31. t22] L Q2 
另外 ， 根据 xf 一 cilgsi1 十 cj285$ (二 2, “es m), 有 


S] qı 
x; 一 [ca zi etna | 
$2 q2 


将 式 (6-145) 代入 上 式 可 得 : 


tiu tiz |q qı 
x; =[eacg] =[unu;] 
t21 t22 | L d2 q> 


所 以 有 
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ti [ug 
Leac] =| unu; ] 
t21 t22 
即 
ti tiz | | ca Uil 
t23 i22 | LC i2 U i2 
Ci tu Us | [ua 1 tə =t || Un 
" t t29 E i 2l» 
C i Lo] tz? U i2 Ha H^ tl» tu U i2 
XEF tisto >ti t2 ATR DL, A 
tə — igi | EUH 
<0 
ti2 ty U i2 
写成 标量 形式 则 有 : 
112 >— max | uis/un | tn 
IKin (6-146) 
tə S min | uis/uji | £5 
IKin (6-147) 
ERE) 5 个 混合 物 的 吸收 光谱 曲线 
X4 N- DS m Xs 
0. 924 2.478 1. 239 0. 413 2. 774 
4. 406 8. 006 6. 845 5.075 1. 920 
5. 488 9. 009 10. 110 6. 393 18. 392 
6. 530 11.900 11. 586 9. 009 20. 969 
4. 977 9. 422 10. 307 7.475 16. 681 
4. 898 8. 419 8. 242 6. 452 3. 907 
3. 875 6. 432 6. 845 4. 839 10. 878 
3. 600 6.157 6. 255 4. 485 0. 032 
3. 501 4. 780 5. 272 3. 796 8. 439 
4. 878 5. 429 5. 724 4.917 7.534 
9. 992 9. 953 9. 678 8. 950 9. 068 
16. 739 16. 601 17. 762 15. 815 12. 845 
27.341 27. 715 28. 521 26. 653 20. 083 
40. 146 44. 041 42. 566 42. 015 33. 321 
52. 735 62. 570 58. 085 55. 155 48. 752 

















E 分 析 化 学 手册 “10” 化 学 计量 学 





ET X3 X3 X4 Xs 
54. 801 72. 995 66. 858 62. 944 70. 262 
51. 260 80. 155 72. 405 66. 701 88. 633 
46. 775 81. 512 73. 448 66. 937 98. 350 
39. 832 74. 962 68. 353 60. 623 97. 800 
30. 272 64. 950 57.613 52. 676 88. 240 
22. 463 51. 496 45. 969 39. 969 72. 799 
15. 795 34. 875 34. 442 30. 154 55. 352 
11. 350 25. 728 25.079 21. 303 41. 189 
7. 947 17. 900 17. 703 15. 087 30. 135 
4. 760 11.271 11. 684 9. 796 20. 103 
2. 813 Tos 7. 140 5. 842 13. 632 
2. 065 4. 485 4. 544 3. 698 8. 065 
1. 593 2. 813 2. 655 2. 419 5.134 
0. 964 1. 436 1. 318 1. 259 2. 833 
0. 669 0. 472 0. 079 0. 138 0.551 
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吸收 X200 
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570 (610 650 690 730 
波长 /nm 


五 个 两 组 分 混合 物 的 可 见 吸收 光谱 图 


0 1 1 1 
410 450 490 530 


(3) 可 行 解 域 的 图 像 表 示 。 从 上 述 讨论 可 以 看 出 ， 纯 物种 波谱 s; (j 二 1,2) 及 混合 物 波 


ÉRE xi (i 二 1,2,…,n) 丝 可 由 它们 在 qi， gs 组 成 的 二 维 空间 坐标 表 出 ， 而 不 等 式 (6 
143) 和 式 (6-144) 及 式 (6-146) 和 式 (6-147) XH H qi. q 组 成 的 二 维 空 间 平 面 中 外 
直线 表 出 。 借 计算 机 图 像 显 示 功 能 ， 即 可 在 二 维 平面 上 将 纯 物 种 波谱 s; Cj 二 1,2) 的 可 行 角 























域 表示 出 来 ， 只 要 确定 了 si (j 一 1,2) 在 此 二 维 平面 上 的 坐标 (ji，zj)， 即 可 根据 式 s! 一 





qi 十 tj2q3 求 出 的 可 能 波谱 形态 。 下 面 以 Lawton 给 出 的 一 个 实例 对 上 述 计 算 过 程 加 以 具体 说 明 。 


主 成 分 分 析 所 得 的 两 个 特征 向 量 q, 和 q 


6 
f 


jl 
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qı q2 qı q2 
0. 056 0. 103 0. 402 0. 094 
0. 068 0. 103 D AUT 0. 218 
0. 055 0. 080 0. 327 0. 284 
0. 047 0. 058 0. 261 0. 285 
0. 037 0. 045 0. 191 0. 243 
0. 034 0. 041 0. 140 0. 192 
0. 029 0. 030 0. 100 0. 150 
0. 031 — 0. 004 0. 065 0. 109 
0. 050 —0. 078 0. 042 0. 085 
0. 082 —0.- 169 0. 026 0. 044 
0. 134 —0. 291 0. 016 0. 025 
0.210 一 0. 400 0. 009 0. 014 
0. 290 —0. 477 0. 002 — 0. 002 


Vs c cO T R tet Jes H 





由 图 6-55 所 示 的 5 条 可 见 吸收 光谱 曲线 是 对 两 种 染料 的 混合 样本 量 测 所 得 ,它们 的 具 

































































由 抽象 谱 91-q 组 成 的 平面 投影 
阴影 部 分 生 分 别 表示 两 个 组 分 的 可 行 解 域 ,其 中 直线 A1 和 A 分 别 为 两 个 组 分 ;1 和 ss 的 可 行 解 域 














日 从 410 一 700nm 每 隔 10nm 读 取 量 测 数据 而 得 ( 表 6-20)， 组 成 混合 样 





本 量 测 矩 阵 X， 继 而 对 它 的 协 方差 阵 进行 正 交 分 解 ， 取 两 个 对 应 于 最 大 特征 值 的 特征 向 量 ， 
由 式 wi 一 x7q1/9191 一 Xiq1 K ui; —xi02/0502 — Xiq2 可 分 别 算得 混合 物 波 谱 矢 量 在 qin 


qs 组 成 的 二 维 空间 








上 的 坐标 ， 它 们 分 别 为 xi1(123.7, 一 33.4)、x5 (201.7, 一 6.6)、x5 


(186.3, —13. 22, x1(169.3, —13. 22, x$(233.4,39. 32, TRIESTE B9 £5 SR RT EH qu. og; 
CK 6-21) 组 成 的 二 维 平面 图 示 于 图 6-56， 用 式 (6-143) 和 式 (6-144) 可 得 两 个 组 分 的 可 
行 解 域 的 外 约束 界 Fi 和 下 *;， 用 式 (6-146) 和 式 (6-147) 可 得 两 个 组 分 的 可 行 解 域 的 内 约 


RAR Fi 和 下 >; 。 





E | 分 析 化 学 手册 O 化 学 计量 学 
Pl 2 si =l, 利用 这 一 条 件 ， 由 $;—tjqittjsq5 可 得 


25s —íj Joy 十 tj2 2 =] (j =1,2) 
i=l 1 一 1 i=l 


4 Xq —a,21q5; 5b 则 有 


tja d tj96 —1 


J 

这 说 明 ， 正 规 化 为 1 的 s; Cj —1. 20 必然 落 在 由 qi、g，* 组 成 的 二 维 空间 上 的 一 条 直 

线 上 ， 它 就 是 图 6-56 中 的 AT 和 AT 所 表示 的 线段 。 因 AT 和 AT 分 别 落 在 可 行 解 域 中 ， 所 
VA. sj G51, 2) 也 就 必然 落 在 AT 和 AT 表示 的 可 行 解 域 中 。 





1.0 

















Nnm 


两 个 纯 组 分 光谱 的 可 行 解 域 





GR s; G51, 2) 在 qi1、gqs 组 成 的 二 维 空间 中 的 坐标 ， 就 可 容易 地 由 式 s; 二 1;191 十 
tqs 算得 它们 的 可 行 解 域 来 。 图 6-57 所 示 的 下 1 和 Fn 就 将 它们 具体 表示 出 来 。 

【讨论 】 

这 一 方法 提出 后 ， 由 Kowalski 等 将 其 用 于 气相 色谱 -质谱 [2001 及 高 效 液 相 色谱 -紫外 可 
见 光谱 数据 的 解析 [200 ， 分 别 分 析 了 oa- 菠 烯 和 落 烷 及 烟 酸 胺 和 核 黄 素 的 重生 色谱 峰 ， 获 得 满 
意 结果 。 说 明 用 此 法 可 分 辩 用 色谱 法 也 难以 很 好 分 离 的 两 组 分 体系 。 

Kawata 4&2021 又 分 别 研究 了 实际 量 测 数据 所 含 误 差 对 可 行 边 界 确定 的 影响 以 及 在 可 行 
解 域 中 确定 最 可 能 纯 组 分 光谱 的 问题 ， 提 出 用 最 小 炉 的 方法 找到 纯 组 分 光谱 的 最 可 能 解 。 
Koenig[2031 等 对 在 分 辨 时 常 可 磁 到 的 一 种 特殊 情况 ， 即 某 一 组 分 在 一 段 波 长 范围 内 有 其 自身 
特殊 的 吸收 峰 的 两 组 分 分 辨 情况 ， 这 在 红外 光谱 指纹 区 很 是 多 见 ， 提 出 一 种 直接 确定 纯 组 分 
唯一 解 的 方法 。 下 面 还 将 对 这 些 内 容 分 别 加 以 介绍 。 

(1) 噪声 对 可 行 解 域 边界 确定 的 影响 及 其 克服 方法 “在 前 文 的 讨论 中 ， 没 有 考虑 噪声 的 
影响 ， 而 在 实际 上 量 测 误差 的 存在 必 将 影响 到 抽象 量 测 谱 中 的 元 素 的 数值 ， 这 种 误差 即 为 在 
前 节 因 子 分 析 误 差 理 论 中 曾 讨论 过 的 置 和 误差。 从 式 (6-143). 和 式 (6-144) 可 以 看 出 ， 它 
将 影响 到 可 行 解 域 边界 的 确定 ， 有 时 甚至 可 将 真实 解 排除 出 可 行 解 域 之 内 。 为 此 ，Kawata 
将 滤波 的 方法 引入 ， 以 排除 gj G=1，2，…，7) 中 小 于 噪声 的 那些 数值 ， 即 对 qi; 用 下 式 
进行 重新 计算 : 
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qa 一 (q2 -Fo2)/qgu (i=l; 2. -*. n) 


其 中 o, 为 一 常数 。 它 可 由 下 式 给 出 





s 7 [8/0 X /p/p 
i-1 
其 中 ，(p,/p，) 的 定义 为 


(pb,/p) 一 ML/ — 2)] 
k—l 





式 中 ,A (二 1,2,...,n) 为 主 成 分 分 析 所 求 得 的 特征 值 ， 且 有 Xi 宇 X44+1。 图 6-58 示 出 了 
da 与 qi 之 间 的 关系 。 从 图 可 以 看 出 ， 如 果 gj 小 于 oo MH, FA o, 代 之 ,这样 也 就 
消除 了 噪声 对 可 行 解 域 边界 确定 的 影响 。 





26, 











0 o, 1 
dà 


ERI 4.534, z8mxx 














(20 dm sifH^roCHE ERTA rhe PAA, Lawton 和 Sylvestre 提出 的 自 模式 曲 
线 分 辨 法 只 能 求 得 各 组 分 的 可 行 解 域 。 试 想 如 果 能 依照 某 一 原则 在 可 行 解 域 中 找到 一 个 合理 
的 唯一 解 ， 这 将 对 自 模式 曲线 分 辨 法 的 实际 运用 具有 重要 意义 。 为 此 ，Kawata 等 引入 了 最 
小 闹 的 概念 ， 即 用 组 分 光谱 自身 所 具有 的 特性 来 确定 最 可 能 的 纯 组 分 光谱 唯一 解 。 他 们 在 实 
验 中 发 现 ， 在 所 有 纯 光 谱 的 可 行 解 域 中 ， 那 些 不 是 实际 纯 组 分 光谱 的 可 行 光谱 实际 是 由 纯 组 
分 光谱 与 另 一 纯 组 分 光谱 的 线性 组 合 而 成 ， 从 而 导致 纯 组 分 的 导数 光谱 的 混合 程度 〈 即 精 ) 
增加 ， 故 提出 用 导数 光谱 的 炉 来 确定 唯一 解 。 其 具体 求解 过 程 如 下 : 





























H; 一 一 2 pylgpii — Wb (j=1, 2 
i=1 


RE, pu NBI 个 不 纯 组 分 光谱 在 波长 点 i 处 的 二 阶 或 一 阶 导数 ， 并 经 下 式 正 规 化 : 


n 
t / * 
P ij 一 | s; B 255 | G —1.2.:.n) 
i-l 
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式 中 ，s; 表示 可 行 解 域 中 第 j 个 不 纯 组 分 光谱 s; 在 波长 点 i 处 的 二 阶 或 一 阶 导数 ， 经 此 
正规 化 处 理 ，p;; 就 有 具有 概率 函数 的 性 质 了 。 
从 图 6-56 nA. s, 和 8， 的 可 行 解 域 ATI 和 Ar 可 由 下 式 表 出 ， 即 








sr = FUY (0xcy,zD 


s =s; -F(1—Yj)s2" (0x y, «1D 





借 一 维 寻 优 的 黄金 分 割 法 ( 亦 称 0.618 法 ) ， 以 H; — — Èp; lep; 作为 目标 函数 即 可 求 
His, 和 ss 的 唯一 解 来 。 

Kawata 等 用 上 述 方法 对 甲 基 橙 和 省 甲 酚 绿 的 两 组 分 体系 进行 解析 ， 同 时 还 对 噪声 影响 
可 行 解 域 及 用 最 小 炉 求 唯一 解 也 作 了 探讨 ， 所 得 结果 分 别 示 于 图 6-59 一 图 6-61。 从 图 6-60 
可 以 看 出 ， 如 果 不 考 虑 噪声 的 影响 ， 的 确 可 能 将 真正 纯 组 分 光谱 排除 在 可 行 解 域 之 外 ， 图 中 
溴 甲 酚 绿 纯 组 分 光谱 的 可 行 解 域 就 正 是 这 种 情况 。 在 图 6-61 中 ， 在 考虑 了 噪声 的 影响 ， 并 
用 前 述 滤 波 方法 对 其 进行 滤波 后 ， 确 实 克 服 了 噪声 的 影响 。 另 外 从 图 6-61 中 可 以 看 到 ， 用 
Tg) 75 3 Pr 3 105) 28 4H 4 2'6 5 53 AE 6-59 中 的 实际 光谱 的 确 吻 合 较 好 ， DOE FH dec RE 7 H 
标 函 数 寻 优 的 方法 具有 一 定 实际 意义 。 




































































































































































x x 
波长 /nm 波长 /nm 
(a) BG (b) MO 
溴 甲 酚 绿 (BG) fü ARE (MO) 的 标准 光谱 图 
x x 
波长 /nm 波长 /nm 
(a) 省 甲 酚 绿 的 可 行 解 域 (b) FE XERG eT TRE 
x x 
300 620 300 620 
波长 /nm 波长 /nm 
(c) 用 最 小 炉 方 法 算出 的 (d) 用 最 小 炉 方 法 算出 的 
溴 甲 酚 绿 的 纯 组 分 光谱 AGI) PUB 7) CY 









































ERD 没 进行 噪声 滤波 的 可 行 解 域 和 计算 所 得 的 各 组 分 的 光谱 图 
EED 


2. 三 组 分 体系 的 纯 组 分 波谱 办 析 

最 早 用 自 模 式 曲 线 分 辨 法 来 进行 三 组 分 体系 的 纯 物 种 波谱 解析 的 要 首 推 M，Ohtar209 ， 
他 以 蓝 青色 、 洋 红色 和 黄色 这 三 种 用 于 彩色 照相 中 的 染料 作为 分 辨 对 象 ， 用 自 模 式 曲线 分 辩 
法 找到 了 这 三 种 纯 组 分 光谱 的 可 行 解 域 ， 并 用 Monte-Carlo 方法 找到 了 一 组 可 能 组 分 光谱 。 
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"wd ^d 
波长 /nm 波长 /nm 
(a) 省 甲 酚 绿 的 可 行 解 域 (b) 甲 基 梯 的 可 行 解 域 
300 620 300 620 
波长 /nm 波长 /nm 
(c) 用 最 小 炉 方 法 算出 的 (d) 用 最 小 炉 方 法 算出 的 
省 甲 酚 绿 的 纯 组 分 光谱 基 栖 的 纯 组 分 光谱 












































EEEJg 进 行 噪声 滤波 后 的 可 行 解 域 和 计算 所 得 的 各 组 分 的 光谱 图 
EED 


Sharaf[205 在 此 基础 上 对 三 组 分 体系 的 纯 组 分 光谱 的 自 模式 分 辨 进行 了 进一步 的 研究 ， 并 对 
其 可 行 解 域 的 降 维 表示 技术 和 定量 分 析 进 行 了 阐述 。 

与 二 组 分 体系 的 纯 组 分 波谱 辨析 的 思路 类 似 ， 自 模式 曲线 分 辨 法 对 三 组 分 体系 解析 的 第 
一 步 仍 是 对 数据 矩阵 X 进行 主 成 分 分 析 ， 然后， 通过 两 个 约束 条 件 来 求 出 s; G—1. 2. 2 
的 可 行 解 域 。 

对 混合 样本 组 成 的 量 测 矩 阵 的 协 方差 阵 进行 正 交 变换 ， 分 别 求 出 其 特征 值 和 特征 向 量 ， 
对 三 组 分 混合 体系 ， 我 们 知道 矩阵 X 的 秩 为 3， 就 取 XA1、4X2 和 4X; 所 对 应 的 3 个 特征 向量 gi、 
qs 和 gs 组 成 新 的 特征 向 量 矩 阵 @2”， 即 















































Q* —[4q1. 4$. 41] 


在 因子 分 析 中 Q " WEARER PE. DEH AR CU EAR E 
与 前 节 内 容 相仿 ， 有 


Xi 一 Cil181 十 ci283 十 ci383 (6-149) 
将 式 (6-148) 代入 式 〈6-149)， 可 得 


xi —caGgugi tig T 1435) Hci Gaqi 2245 十 z23g3) 十 





cia (taqi + 13205 T 13303) 
二 (ciltil 十 ci2t2l dr cista) + Cei tis 十 ci2t22 十 ci3t32) 十 





(ciltl3 十 ci2t23 十 ci3zt33) 


=u aqi Fuq} d uisqi G =1, 2, =, m) (6-150) 
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与 前 节 对 二 组 分 体系 的 纯 组 分 波谱 自 模式 辨析 的 叙述 不 同 ， 在 这 一 节 将 对 降 维 技术 给 出 
介绍 。 从 式 (6-150) 可 以 看 出 ， 








Uil Ct T Cizt21 T Ciatgi 





Ui2 Citl2 T Cizt22 T Ci3t32 











Ui3 二 Ciltl3s TCi2t23 T Ci3t33 


WME u; = [unus wis unl ti tuo tis 4a J's tz = Lins te) t 1s t3 = 
[£315 [35 Las J's 则 上 述 方程 组 就 可 变 为 : 





u; —cuti ct iot? tt cists (6-151) 





将 式 (6-151) 与 式 (6-149) 比较 ， 就 可 发 现 两 式 有 类 似 的 形式 。 不 同 的 是 ， 式 (6- 
149) 为 任 一 混合 物 量 测 光 谱 由 7 维 纯 组 分 光谱 空间 (si. so. s3) 的 线性 组 合 的 表示 方式 ， 
而 式 (6-151) 则 为 该 混合 物 波谱 在 ” 维 正 交 因 子 空间 (qi. qo. q3} 的 坐标 组 成 的 向 量 
u;—[ui uis suis 在 一 三 维 空间 {ti ,ts ,ts}) 的 线性 组 合 的 表示 方式 。 然 而 ,值得 提出 的 是 ， 
它们 的 线性 组 合 系数 是 同一 的 ,这 说 明 任 一 混合 物 量 测 光谱 在 经 主 成 分 分 析 后 ,实际 是 可 由 一 
三 维 线性 空间 来 表示 的 ,而 且 这 一 关系 在 三 维 空间 中 还 具有 相同 形式 。 以 下 我 们 还 将 证 明 , 当 
满足 一 定 条 件 时 ,混合 物 光谱 在 因子 空间 中 完全 落 在 一 个 平面 上 ,这 样 ,三 组 分 混合 体系 的 可 
行 解 域 就 可 在 一 平面 上 表 出 ,从 而 使 得 三 组 分 混合 体系 的 可 行 解 域 的 确定 将 与 前 节 所 述 的 二 
组 分 混合 体系 的 一 样 容易 。 

对 于 式 (6-149) , 当 满 足下 述 条 件 时 ， 




















ci 十 ci 十 ci 二 1] (i —1,2.*.m) (6-152) 





则 混合 物 光 谱 (—1. 2, e. m) 在 因子 空间 的 坐标 点 集 as uis uia. (i 三 1， 
2, e, m) 必 落 在 由 三 个 纯 组 分 光谱 在 因子 空间 的 坐标 点 ， 即 Crus os 03205 Cris t22, 
t23); Cis t32, t33) 所 构成 的 平面 上 。 

由 解析 几何 知识 可 知 ， 三 点 决定 一 个 平面 ， 设 由 点 (no tis 44325 no £m 123)， 
Gai t329 t33) 构成 的 平面 方程 如 下 : 








ax + py + Yz =d 

















显然 有 
ati, + ptiz 十 Xi13 =d (6-153a) 
at» -F Bto» 十 Yizs =d (6-153b) 
ata 十 Biss 十 Ytss =d (6-153c) 


所 谓 混合 物 光 谱 x; (i 一 1， 2, t. m) 在 因子 空间 的 坐标 点 集 Ci， MUi2， u;32—1, 
2, . , m) 9 必 落 在 由 Gus ZL12， L3)» (5, i25 Lo3) 5 Ga, [35 * tag) 所 构成 的 平面 之 
上 ， 实 质 上 就 是 要 满足 : 
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aui tBuiz F Yui =d (6-154) 


根据 式 (6-148) 和 式 (6-149), 将 (Cu; uj. ui) 所 对 应 的 值 代 入 式 (6-154) 的 
左边 ， 可 得 


aciltl 十 ci2t2l 十 cistsl) 十 BCciltli2z E Ciotos 十 cist32) 十 YXYCciltl3s 十 ci2t23 十 ci3st33) 








=c; Cati F ptiz 十 Ytis) 十 ci2 Cato 十 Bizz 十 Ytz3) 十 cis (Catal 十 Bis 十 Yts3) 
=c d +cid 十 cisd 

一 (cil 十 ci 十 cis)qg 

—d 





在 上 述 推导 中 利用 了 式 (6-153) 以 及 式 (6-152) 的 条 件 。 到 此 ， 唯 一 的 问题 就 是 由 式 
(6-152) 示 出 的 条 件 在 实际 中 怎样 来 实现 。 其 实 ， 对 于 由 式 06-1520. 示 出 的 条 件 是 容易 在 
实际 中 做 到 的 ， 即 只 需 对 混合 物 量 测 谱 xi G=1, 2, 2, m) 和 纯 组 分 量 测 谱 ss! (i 二 1]，2， 
3) 进行 归 一 化 处 理 就 立即 可 以 得 到 。 即 令 











由 式 (6-149)， 对 混 





zp 
© 
Ei 
x: 
ai 
m 
m 
3m 
d 
gl 
» 
Ea 
EI 
aii 


n n n n 

t 
209. — Ci] Xy 十 ci Ssa 十 cis pac 
j=1 j=1 了 一 1 


j=1 
1 一 ca dea t ca 


这 就 是 由 式 (6-152) 示 出 的 条 件 。 

值得 提出 的 是 ， 由 于 纯 组 分 光谱 si (i —1,. 2, D 是 待 求 的 ， 所 以 这 一 平面 方程 实际 是 
通过 由 混合 物 光谱 x; (Gi 二 1，2,…，m) 在 因子 空间 的 坐标 点 集 来 得 到 的 。 从 上 述 讨 论 可 
知 ， 经 归 一 化 处 理 后 的 混合 物 光 谱 xiGi = 二 1，2,，…,m) 在 因子 空间 的 坐标 点 集 uas 
Uis Wig) (i —1, 2, =, m) 缘 落 在 一 个 平面 上 ， 故 可 任 取 其 中 三 点 ， 如 (zi uis ug), 
Ci，zaj2，u5)，(Cei，u2，u3) 来 构成 这 一 平面 ， 在 此 下 角 标 ?、7、R 是 属于 下 角 标 集 
G=1, 2, =, m) 中 的 任 一 不 相同 的 三 个 下 角 标 ， 继 用 下 式 可 得 由 式 (6-153) 所 定义 的 
平面 方程 ， 即 






































Ui Uji Uiz — Uj? Uig — js |—0 (6-155) 
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Sharaf 等 就 是 用 此 法 对 两 个 三 组 分 混合 体系 进行 了 解析 。 其 中 一 个 是 正己 烷 、 环 已 烷 和 
戊 烯 醇 构 成 的 三 组 分 混合 体系 的 纯 组 分 质谱 解析 ， 男 一 be N+ 构成 的 三 组 
分 混合 体系 的 纯 组 分 紫外 可 见 光 谱 解 析 。 这 两 个 体系 的 各 组 分 浓度 及 它们 的 混合 物 量 测 波谱 
在 三 维 因 子 空间 的 坐标 和 在 二 维 平面 的 坐标 分 别 示 于 表 6-22 和 表 6-23， 它 们 在 二 维 平面 的 
投影 图 分 别 示 于 图 6-62 和 图 6-63。 
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10 个 模拟 质谱 混合 体系 的 组 成 .因子 得 分 ( a, ,a ,a,, ) 和 计算 所 得 的 二 维 平 面 坐标 及 
纯 物 种 质谱 
混合 物 组 分 相对 浓度 /% 二 维 平面 坐标 
因子 得 分 
编号 I I T x y 
1 10 10 80 23. 924 — 49. 112 — 14. 726 74.813 110. 723 
2 80 10 10 22. 785 45. 947 2. 892 20. 306 13. 841 
3 10 80 10 20. 969 48. 754 —44. 676 107. 938 13. 841 
4 50 50 0 21. 585 61. 13 1. 805 62.594 0. 000 
5 0 50 50 22. 398 —6. 768 — 40. 071 101.528 69. 202 
6 50 0 50 23. 695 —8. TT: 22. 477 38. 934 69. 203 
7 40 0 60 23. 858 =a 3D 4. 246 46. 721 83. 043 
8 30 0 70 24. 021 — 35. 93: 6.015 54. 507 96. 884 
9 30 10 60 23. 598 — 21. 953 1. 736 59. 240 83. 043 
10 40 50 10 23. 436 —8. 373 9.967 51. 453 69. 203 
计算 所 得 的 纯 物 种 质谱 
I 100 0 0 22. 882 59. 126 63. 633 0. 000 0. 000 
0 100 0 20. 287 63. 136 — 61. 464 125. 188 0. 000 
Ii 0 0 100 24. 509 —16. 674 — 18. 679 77.868 138. 405 





























紫外 光谱 混合 体系 的 组 成 、 因 子 得 分 (a,; an, a.) 和 计算 所 得 的 二 维 平面 坐标 及 纯 









































物种 光谱 

混合 物 组 分 相对 浓度 /% P. 二 维 平面 坐标 

编号 " 因子 得 分 7 : 
1 10 10 80 2. 790 0. 033 0. 248 0. 174 2. 405 
2 80 10 10 0. 895 —0. 397 — 0. 261 0. 098 0. 398 
3 10 80 10 0. 751 0. 389 — 0. 294 0. 898 0. 392 
4 50 50 0 0. 530 —0. 014 — 0. 350 0. 542 0. 096 
5 50 0 50 2. 025 — 0. 262 0. 023 0. 024 1. 568 
6 0 50 50 1. 930 0. 302 0. 004 0. 579 1. 573 
7 35 25 40 1. 709 — 0. 043 — 0. 061 0. 298 1. 286 

计算 所 得 的 纯 物 种 质谱 

I 100 0 0 0. 534 — 0. 564 — 0. 358 0. 000 0. 000 
0 100 0 0. 331 0. 593 — 0. 406 1. 176 0. 000 
Til 0 0 100 23. 776 — 3. 545 5. 832 一 7. 198 23. 143 
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10 个 质谱 的 二 维 表 示 
S 2. 3 表示 内 界 ，1"，2"，3" 表 示 外 界 ; 
图 中 的 阴影 部 分 表示 组 分 质谱 的 可 行 解 域 





表 6- 22 和 表 6- 23 中 的 因子 空 间 坐 标 (uu: Ui»: Us )， G= ls 2, “sy m) 可 由 式 
(6-148) 和 式 (6-149) 联合 求 出 ， 这 是 因为 因子 空间 (qi. q». q3) 是 相互 正 交 的 。 


qi—uuqic-uiaqic-u;qi (G1. 2, c. m) 


由 正 交 性 , 我 们 有 q5q1—0. qsqi—0. LA qq; —0. 
所 以 


uj =x}qı/qi qı 
ui? 一 Xig2/193292 


Uis —XiQ3/0503 





至 于 怎样 由 因子 空间 坐标 (uas uj ug), G1. 2. c. m) 化 为 二 维 平面 坐标 ， 则 可 
根据 方程 式 (6-155) 来 进行 ， 或 是 通过 坐标 旋转 ， 使 zy 平面 与 由 式 (6-155) 所 定义 的 平 
面 重 合 即 可 得 到 ， 在 此 不 再 详 述 。 

从 图 6-62 可 以 看 出 ， 由 点 1 "、2*"、3" 决 定 的 三 角形 是 由 质谱 量 测 值 非 负 这 一 约束 条 件 
而 得 到 的 ， 而 由 点 1、2、3 决定 的 三 角形 则 是 由 浓度 非 负 这 一 约束 条 件 而 得 到 的 。 图 中 的 阴 
影 部 分 就 表示 3 个 纯 组 分 质谱 的 可 行 解 域 。 图 6-63 可 类 似 解释 。 有 关 多 组 分 可 行 解 域 的 确 
定 在 下 一 节 还 将 进行 更 一 般 的 介绍 ， 在 此 不 多 讨论 了 。 

从 以 上 讨论 可 以 看 出 ， 自 模式 曲线 分 辨 法 的 关键 就 是 如 何 从 一 组 混合 物 量 测 光 谱 中 找到 
各 个 纯 组 分 波谱 的 可 行 解 域 ， 而 且 三 组 分 混合 体系 的 解析 与 两 组 分 混合 体系 的 解析 并 无 本 质 
区 别 ， 只 是 在 降 维 处 理 上 更 加 复杂 些 而 已 。 

3. 自 模式 曲线 分 辨 的 通用 降 维 处 理 和 可 行 解 域 的 确定 

1983 年 Borgen 和 Kowalski 对 此 问题 进行 了 研究 [2%] ， 对 含 p 组 分 的 混合 物体 系 的 分 
辨 提出 了 统一 的 降 维 处 理 方法 ， 说明 含 p 组 分 的 混合 物体 系 纯 组 分 波谱 分 辨 的 可 行 解 域 总 
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SIZED 7 个 紫外 光谱 的 二 维 表 示 
点 1，2，3 表示 内 界 ; 工 ， 下， 下 表示 外 界 ; 
图 中 的 阴影 部 分 表示 组 分 光谱 的 可 行 解 域 











可 以 在 (2 一 1) 维 超 平面 上 表 出 。 此 外 ， 该 文 还 详细 讨论 了 三 组 分 体系 之 可 行 解 域 确定 的 
一 般 性 原则 和 方法 。 下 面 拟 对 这 些 内 容 分 别 加 以 介绍 。 

(OD 降 维 处 理 变换 ” 设 对 所 得 混合 物 量 测 波谱 矩阵 和 进行 了 第 一 步 的 主 成 分 分 析 ， 即 
通过 对 量 测 和 矩阵 的 协 方差 阵 正 交 分 解 后 ， 找 到 了 p 个 抽象 波谱 矢量 (q.s qosc qp) JF 
且 还 设 已 对 所 有 的 混合 物 量 测 波谱 x16 —1. 2. =, m) 和 纯 组 分 量 测 谱 85G 一 1,2,…, 轧 ) 
(Pp 达 mm) 进行 了 归 一 化 处 理 , 即 















































Mz =1 QG-—1.2.-,.m;j —1.2.-.m) 
2 551 G —1.2.*:.m3j —1.2,.7.n) 


下 面 我 们 将 看 到 ， 只 需 通过 适当 变换 ， 就 可 将 混合 物 量 测 波谱 和 纯 组 分 量 测 谱 中 元 素 非 
负 的 约束 条 件 在 (p 一 1) 维 的 超 平面 上 表 出 。 
首先 我 们 来 看 看 在 此 体系 的 任 一 向 量 (包括 混合 物 量 测 矢量 和 我 们 要 找 的 纯 组 分 波谱 矢 
量 ) 怎样 用 (p 一 1) 和 超 平面 表 出 的 情况 。 因 属于 该 体系 的 量 测 波谱 矢量 皆 可 由 p 个 抽象 
波谱 矢量 线性 表 出 ， 



































$j—luqi-c-ismqid- s 1g, G —ls 2» e p) t6- T96) 


xi Sungi Furg He +H uig p S1, 2, s, m) SICUT 


再 根据 条 件 >)x; 一 1， 对 的 各 元 素 求 和 得 


Dy cua Das Hua Day tt us Das 


j-l j=l J 一 1 j=l 
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b 
X unde =l 
k=1 








因 第 一 正 交 抽象 波谱 矢量 q 的 各 元 素 总 是 非 员 ， 所 以 di 非 负 ， 再 将 上 式 变形 为 





p 
uj o (1/d1) X ude —1/di 


k=2 
可 得 
b 
un —(1— X unda ) /di (6-158) 
k—2 





对 于 由 式 (6-156) 表示 的 s; (jl. 2.5. p). LEXRTESEZRIDPREEGX OL. B4 a; 改 成 
tij 即 可 ， 


b 
t4 —(1— P tads ) /di (6-159) 


k—2 





上 和 式 说 明 ， 只 要 由 归 一 化 条 件 ， 就 可 将 ua Rt BERKI uu lk =2, pta (kk 二 2,…， 
pp ) 而 求 出 ,这 就 将 p 维 空间 降 至 了 (pp 一 1) 维 。 

(2) 波谱 数值 非 负 约束 (第 一 约束 ，FIRPOL) 因 所 求 纯 组 分 波谱 的 强度 值 缘 不 可 为 
负 ， 此 条 件 可 用 下 式 表 出 ， 











s; 20 ( 21, 2, , p; i—1, 2, ^, m 
又 因为 
s} —tjqi-Ftjaq d s ttia, G —1. 2, =, p) 
亦 即 


Sij tq1i iau" fu ZO 
再 将 式 (6-159) 代入 此 式 ， 可 得 
[4 — rd) /a ] qii cTtjzQsi doses Tti 


二 gii/d1 一 (gii/d1) Pi adi T D tagu 
k=2 k=2 


=q;;/dı + es — (quid s0/di]tj, S0 
k—2 
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因 gq1;/4d1 宇 0， 而 第 一 特征 向 量 的 每 一 元 素 都 大 于 零 ， 所 以 对 上 式 两 边 同 除 以 qu /dl ， 不 等 


式 不 变 号 ， 得 





1+ SG /gad — dr lti c) 
k=2 
令 [(gp;/gq1i)di 一 dj 三 fw;， 上 式 则 变 为 


1+ D futa Z0 (6-160) 


ERP feH- BME, XA qu (G2. 7. p. i—1. 2, c. n) 可 由 主 成 分 分 析 而 





得 到 ， mH. de= X qus 式 中 的 未 知 变 量 就 只 有 Lj (k =2, e, P j^2, ets b): ^ 


i-l 
(一 1) 维 超 平面 的 约束 条 件 。 至 此 就 完成 了 第 一 约束 条 件 的 降 维 处 理 。 

(3) 浓度 非 负 约束 (第 二 约束 ，INNPOL) 从 式 (6-157) 可 知 ， 任 一 该 体系 的 混合 物 
波谱 xi 在 正 交 的 抽象 波谱 空间 (qi. qi. cv qp) 中 可 由 点 集 (zi ups tO up) G= 
1l, 2, m) 来 表示 ， 再 考虑 式 (6-158)， 因 wii 是 (uio. t up) 的 线性 组 合 ， 只 要 
(uiz, t. uj) 已 知 ， ui 就 可 唯一 确定 ， 亦 即 混 合 物 波谱 实际 就 可 由 (xz ，…，zxip ) W 
成 的 (pp 一 1) 维 超 平面 唯一 确定 。 由 混合 物 波谱 点 集 Cui. c up) (i 二 1，2，…m) 在 
(p 一 1) 维 超 平面 所 围 成 的 区 域 ， 就 构成 了 浓度 非 负 的 约束 区 域 ，Borgen 等 将 其 称 为 IN- 
NPOL, 

如 采用 这 一 统一 降 维 技术 ， 就 可 使 二 组 分 混合 体系 的 可 行 解 域 落 在 一 条 直线 之 上 ， 而 使 
三 组 分 混合 体系 的 可 行 解 域 落 在 一 二 维 平面 之 上 。 

对 于 二 组 分 混合 体系 ， 根 据 式 (6-160), Æ 


















































1 十 f2itjz 之 0 
亦 即 由 
Lj 之 一 1/ fai QG =l, 2) 


来 确定 ， 这 几 条 直线 就 构成 了 波谱 数值 非 负 的 约束 条 件 ， 而 m 个 混合 物 波 谱 也 可 由 zi 
G=1, 2, =, m) 来 表示 出 。 这 样 ， 我 们 在 本 章 讨论 的 两 组 分 体系 变 成 一 条 直线 (图 6- 
56)， 可 由 图 6-64 示意 表示 出 。 

对 于 三 组 分 混合 体系 ， 式 (6-160) 变 成 





l- faeitjo Ffit Z0 (Ll 25- ig n) 


即 由 下 式 表 出 的 ”条 直线 : 





ld faitjs F fsitjg —0 (1-1, VPEELLES n) 


构成 第 一 约束 条 件 的 区 域 (FIRPOL)， 而 mm 个 混合 物 波谱 向 量 则 可 由 个 点 集 (zi ui) 
G=1, 2, =, m) 来 表示 ， 由 此 可 得 到 第 二 约束 条 件 的 区 域 (INNPOL)， 图 6-65 示意 地 
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可 行 解 域 1 
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两 组 分 体系 约束 界 示意 图 
--- 禁 界 ; 一 可 行 解 域 











三 组 分 含 6 个 混合 物 波谱 体系 的 
纯 组 分 可 行 解 域 确 定 示 意图 
阴影 部 分 为 纯 组 分 波谱 的 可 行 解 域 


表示 出 了 这 一 情况 。 

从 上 述 讨论 可 知 ， 通 过 如 此 降 维 处 理 ， 可 将 p 组 分 体系 降 至 〈p 一 1) 维 空间 来 进行 图 
像 表征 ， 以 获得 p 个 组 分 的 可 行 解 域 。Borgen 等 还 对 四 组 分 混合 体系 的 情况 进行 了 讨 
论 [271 ， 得 到 了 三 维 的 可 行 域 图 像 ， 但 是 ， 计 算 和 相应 的 图 像 表 征 也 变 得 更 加 复杂 。 如 果 体 
系 的 组 分 数 大 于 3， 即 使 经 如 此 降 维 处 理 亦 难 用 图 像 表 征 出 来 ; 而且， 即使 求 得 了 体系 纯 组 
分 光谱 的 可 行 解 域 ， 仍 未 得 到 具有 真实 物理 意义 的 唯一 解 。 可 以 想象 ， 如 果 遵 循 这 一 思路 继 
续 研究 下 去 ， 悉 怕 一 时 还 难以 得 到 可 为 广大 分 析 工 作者 易于 接受 、 易 于 理解 且 又 令 人 振奋 的 
结果 ， 似 有 必要 开辟 新 的 研究 途径 。 

随 着 分 析 实 验 室 中 的 色谱 联 用 仪器 的 出 现 和 普及 ， 使 这 样 的 设想 成 为 可 能 。 下 面 将 对 近 
年 来 专门 针对 二 维 色谱 联 用 仪 所 产生 的 二 维 数据 进行 矩阵 分 辩 的 方法 给 出 详细 的 介绍 。 可 以 
这 么 说 ， 以 下 将 要 介绍 的 黑色 分 析 体系 的 矩阵 分 辨 解析 方法 实际 上 都 是 基于 本 节 所 讨论 的 自 
模式 曲线 分 辨 法 ， 唯 一 不 同 的 地 方 在 于 它们 更 多 地 使 用 了 二 维 色 谱 联 用 仪 所 产生 的 二 维 数据 
的 特点 ， 其 中 最 重要 的 是 色谱 的 分 离 特性 ， 而 不 只 是 局 限于 浓度 非 负 、 光 谱 非 负 的 约束 ， 使 
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得 直接 快速 解析 复杂 未 知 的 黑色 分 析 体 系 出 现 了 新 局 面 ， 同 时 ， 由 于 使 用 了 二 维 色谱 联 用 仪 
所 产生 的 二 维 数据 的 其 他 化 学 特点 ， 也 使 得 获得 具有 真实 物理 意义 的 唯一 解 成 为 可 能 ， 取 得 
了 令 人 振奋 的 新 结果 ， 为 直接 快速 地 解析 复杂 未 知 的 黑色 分 析 体系 提供 了 一 条 胃 新 途径 。 

(二 ) 和 迭代 目标 转换 因子 分 析 法 

【基本 思路 】 

迭代 目标 转换 因子 分 析 法 〈ITTFA) 由 Gemperline 和 Vanteginste 分 别 独立 提出 [208,209] , 
其 主要 思路 是 利用 主 成 分 分 解 的 抽象 矩阵 来 进行 欠 代 ， 以 求 得 一 个 和 逼近 的 可 能 解 。 因 将 X 
和 矩阵 分 解 后 ， 可 以 得 到 两 个 抽象 正 交 和 矩阵 T 和 Pr!， 分 别 构成 了 正 交 且 又 与 纯 浓度 谱 和 纯 光 
谱 张 成 的 空间 为 同一 线性 空间 ， 这 样 ， 用 抽象 正 交 空间 来 蔡 代 纯 浓 度 谱 和 纯 光 谱 张 成 的 空 
间 ， 对 一 初始 矢量 来 进行 迭代 逼近 ， 以 求 得 一 个 逼近 可 能 解 。 其 实 ， 由 Gemperline 和 Van- 
teginste 分 别提 出 迭代 目标 转换 因子 分 析 法 的 区 别 仅 在 于 他 们 所 取 的 初始 近代 矢量 不 同 。 本 
节 将 较 详细 地 介绍 和 讨论 这 个 方法 。 

【基本 算法 】 

设 我 们 已 通过 某 种 量 测 方法 获得 了 一 个 二 维 数据 矩阵 怀 ， 并 假设 此 二 维 数据 矩阵 是 双 线 
性 的 ， 即 X 的 每 一 列 都 表示 一 个 浓度 分 布 (对 于 色谱 数据 就 是 色谱 )， 每 一 行 都 表示 一 个 混 
合 光 谱 。 采 用 主 成 分 分 析 方 法 先 对 此 二 维 数据 矩阵 X 进行 分 解 ， 于 是 得 到 




















































































































X —TP' 十 五 


式 中 ,，T 和 了 :为 两 个 正 交 和 拖 阵 ， 其 中 了 是 列 正 交 矩阵， 而 卫 : 为 一 行 正 交 和 矩阵 ， 有 时 也 
把 它们 分 别称 之 为 抽象 色谱 阵 和 抽象 光谱 阵 ; 五 为 残 差 矩阵 。 另 外 ， 根 据 朗 伯 - 比 耳 定律 可 知 ， 











X —CS' -E 








式 中 ，C 为 On Xn) 阶 的 真实 浓度 分 布 了 泗 (对 于 色谱 数据 就 是 色谱 ); S' 为 QOUXD 
阶 的 真实 纯 物 种 光谱 阵 。 在 这 里 m 为 色谱 在 保留 时 间 轴 上 的 采样 点 数 ，/ 为 光谱 的 波长 点 
数 ，n 为 混合 体系 的 独立 组 分 数 。 对 照 上 述 两 式 可 以 看 到 

















CS' —TP' —TRR P' 


Hil 


和 


St =R! Pt 








在 此 ，R 为 一 (nn Xn) 的 满 秩 旋 转 和 矩阵 ， 它 可 以 将 抽象 浓度 和 抽象 光谱 阵 转 换 成 为 有 
物理 意义 的 真实 的 浓度 分 布 阵 和 真实 的 纯 物 种 光谱 阵 ， 而 这 正 是 我 们 所 要 求 的 。 其 实 ， 很 多 
基于 自 模 式 曲线 分 辩 方 法 的 算法 ， 其 目的 也 就 在 于 找到 这 个 转换 矩阵 尺 。 如 果 将 式 C= 二 TR 
(在 此 我 们 只 讨论 浓度 分 布 阵 的 情况 ， 对 于 纯 光 谱 阵 如 S' 二 R71P' 所 示 出 的 情况 与 此 类 似 ， 
可 以 照 推 ) 写成 矢量 式 ， 即 
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式 中 ,下 角 标 i 表示 真实 的 浓度 分 布 阵 的 第 i 列 。 设 我 们 已 通过 某 一 方法 得 到 了 c;， 就 
可 以 很 容易 地 采用 最 小 二 乘 方法 求 出 转换 矩阵 的 第 i 列 来 ， 























rT T'e; 


T 为 一 列 正 交 的 和 矩阵， 所 以 (TT) 的 求 道 很 容易 。 在 此 的 问题 是 : c; 其 实 是 未 知 的 ， 
是 我 们 最 终 要 求 得 的 。 如 前 所 述 ， 和 迭代 目标 转换 因子 分 析 的 主要 思路 是 利用 迭代 来 解决 这 一 
矛盾 。 先 找到 一 个 初始 迭代 矢量 c? ， 由 ;二 (TIT)T1Tte; 算 出 一 个 相应 的 r?， 再 由 式 e; — 
Tr ;就 可 得 到 一 个 新 的 浓度 分 布 矢 量 ， 记 为 c}l ， 就 此 循环 使 用 上 述 两 式 ， 直 到 |‖ etet | 
小 于 某 一 给 定常 数 ， 即 停止 迭代 ， 由 此 得 到 的 也 就 是 我 们 要 求 的 可 能 解 。 众 所 周知 ， 由 迭代 
法 所 求解 时 ， 初始 迭代 矢量 的 选择 具有 决定 性 意义 。 如 前 所 述 ， 由 Gemperline 和 
Vanteginste 分 别提 出 迭代 目标 转换 因子 分 析 法 的 区 别 就 在 于 他 们 所 取 的 初始 迭代 矢量 不 同 ， 
在 此 只 介绍 Gemperline 的 方法 ， 对 Vanteginste 的 方法 不 作 详 细 介 绍 ， 只 因 他 是 采用 因子 分 
析 中 的 最 大 方差 旋转 法 来 寻找 初始 迭代 矢量 ， 较 为 复杂 ， 但 物理 意义 不 明确 ， 有 兴趣 的 读者 
可 参阅 文献 L209]。Gemperline 的 方法 主要 基于 如 下 事实 ， 即 利用 纯 物 种 的 浓度 分 布 (尤其 
是 对 色谱 而 言 ) 有 一 个 且 只 有 一 个 极 大 值 的 特点 ， 所 以 他 选择 的 初始 迭代 矢量 为 c? 王 (0 
0…0100…0)5， 即 一 个 所 含 元 素 皆 为 零 ， 其 中 只 有 一 个 元 素 是 1 的 矢量 为 其 初始 迭代 矢 
量 ， 以 引导 迭代 朝 某 一 纯 物 种 的 浓度 分 布 收 人 钱 。 此 外 ， 在 迭代 过 程 中 ， 每 得 到 一 个 迭代 的 浓 
度 分 布 都 要 进行 修正 ， 即 利用 浓度 分 布 中 的 每 一 元 素 不 可 能 为 负数 的 条 件 ， 把 迭代 所 得 的 浓 
度 分 布 矢量 中 的 负 元 素 全 部 置 成 零 ， 然 后 再 继续 迭代 。 这 一 步 相 当 重 要 ， 它 可 促进 迭代 朝 真 
实 纯 物 种 浓度 分 布 台 近 。 

【讨论 了】 

对 于 纯 物 种 浓度 分 布 的 重 又 程度 不 严重 的 混合 体系 ， 该 法 的 确 可 以 收敛 至 真实 的 纯 物 种 
浓度 分 布 1 叶 ,但 当 纯 物种 浓度 分 布 的 重 芭 程度 严重 时 ， 一般 难 以 得 到 真实 解 ， 只 可 能 是 一 
种 可 能 解 。 当 然 ， 怎 样 找 到 更 有 利 的 初始 迭代 矢量 仍 是 一 个 值得 研究 的 问题 ， 笔 者 在 此 方面 
亦 做 过 一 些 探 讨 ， 有 兴趣 的 读者 可 参阅 文献 L211]。 

在 此 ， 我 们 认为 有 必要 分 析 一 下 该 法 的 物理 意义 ， 这 样 对 正确 使 用 该 法 和 理解 该 法 的 适 
用 性 有 帮助 。 该 法 的 基础 在 于 它 利 用 了 两 个 抽象 正 交 和 矩 阵 T 和 P! 分 别 构成 与 纯 浓 度 谱 阵 C 
和 纯 光 谱 S' 张 成 的 空间 为 同一 线性 空间 的 事实 ， 所 以 ， 用 正 交 和 矩阵 TT 来 代 蔡 纯 浓 度 谱 阵 C 
以 进行 迭代 通 近 ， 是 可 能 求 得 一 个 逼近 可 能 解 的 。 整 个 迭代 过 程 示意 地 由 图 6-66 表 出 ， 以 
帮助 读者 对 该 法 的 理解 。 







































































初始 迭代 矢量 

















E) 氨 代目 标 转换 因子 分 析 法 的 迭代 逼近 几何 示意 图 
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为 帮助 理解 ， 在 此 我 们 给 出 一 个 简单 实例 来 说 明 一 下 和 迭代 目标 转换 因子 分 析 法 
(ITTFA)〉 的 解析 分 辨 的 具体 过 程 。 图 6-67 示 出 了 一 个 高 效 液 相 色 谱 与 二 极 管 阵列 检测 器 联 
用 仪 CHPLC-DAD) 所 得 的 二 维 数据 阵 X 的 三 维 显示 图 [图 6-67 (a) ]. 该 系统 的 标准 色 
谱 阵 C [图 6-67 (bo ] 和 标准 光谱 阵 St [图 6-67 Co) ]。 图 6-68 示 出 的 是 ITTFA 1: 8935 
代 分 辨 过 程 。 首 先 选 择 初始 迭代 矢量 为 cf 二 (0 0 …0 100…0):( 亦 称 针 式 搜索 ，needle 
search) ， 然 后 进行 近代， 图 中 从 上 到 下 是 4 个 不 同 组 分 ， 而 从 左 至 右 是 每 个 组 分 的 迭代 过 
程 ， 从 图 可 以 看 出 ， 开 始 适 代 的 时 候 ， 所 得 的 纯 组 分 色谱 还 都 含有 负 元 素 ， 经 非 负 处 理 ， 选 
代 的 确 是 该 纯 物 种 的 色谱 浓度 分 布 在 不 断 靠 近 ， 直 至 收敛 。 在 图 6-68 的 右 部 ， 如 已 获得 了 
所 有 组 分 的 纯色 谱 浓 度 分 布 ， 继 而 采用 最 小 二 乘 ， 对 XX 二 CS' 直接 求 解 ， 即 可 获得 所 有 组 分 
的 纯 光 谱 St, 
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(b) (c) 
高 效 液 相 色 谱 与 二 极 管 阵列 检测 器 联 用 仪 (HPLC-DAD) 所 得 数据 矩阵 X 的 
三 维 显 示 图 (a) ,该 系统 的 标准 色谱 阵 C(b) 和 标准 光谱 阵 S'(c) 










































































经 非 负 修正 后 最 终 送 代 后 
初始 投影 所 得 的 所 得 的 目标 浓 所 得 的 目标 
搜索 目标 — BIRKE 度 分 布 于 浓度 分 布 
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ERE) 和 迭代 目标 转换 因子 分 析 法 (ITTFA) 的 和 迭代 分 辨 过 程 
从 上 到 下 显示 4 个 不 同 组 分 ,从 左 至 右 显示 每 个 组 分 的 迭代 过 程 ( 左 部 ); 
获得 所 有 组 分 的 纯色 谱 浓 度 分 布 后 ,采用 最 小 二 乘 可 获 所 有 组 分 的 纯 光 谱 S'( 右 部 ) 
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) 渐进 因子 分 析 法 及 其 相关 方法 























渐进 因子 分 析 法 的 主要 思路 在 于 它 较 精彩 地 利用 了 二 维 数据 的 一 个 重要 化 学 特点 ， 即 化 
学 物质 在 很 多 情况 中 的 依次 出 现 特性 ， 具 有 这 样 特性 的 二 维 数 据 包括 联 用 色谱 Cl GCIR, 


HPLC- 





DAD, GC-MS 等 ) 数据 、 滴 定 光谱 数据 (如 在 不 同 pH 值 的 光谱 )、 动 力学 光谱 数据 





等 。 渐 进 因子 分 析 法 最 初 由 Zubbuhler 和 Maeder 等 提出 31 下， 主要 用 来 解决 光谱 滴定 数据 


的 问题 ， 








后 由 Maeder 进一步 拓展 [23~25， 可 用 于 色谱 分 辨 渐进 因子 分 析 法 的 思路 很 简 


单 ， 它 利用 主 成 分 分 析 所 得 特征 值 为 其 基本 出 发 点 ， 不 同 之 处 只 是 它 不 是 常规 式 对 整个 和 矩阵 
一 次 分 解 ， 而 是 逐步 渐进 地 延 折 至 整个 矩阵 ， 从 而 得 到 各 物种 在 该 数据 矩阵 中 的 出 现 点 和 消 


失 点 。 














其 具体 算法 将 通过 图 6-69 来 解释 。 从 图 可 以 看 出 ， 它 的 计算 是 由 两 大 部 分 组 成 ， 第 一 
部 分 叫 前 向 计算 ， 从 和 矩阵 的 前 两 行 开 始 〈 这 是 因为 进行 主 成 分 分 析 至 少 要 两 行 ) 继 采 用 逐步 
增 大 计算 的 矩阵 来 进行 ， 即 首先 它 计 算 只 含有 两 行 的 子 符 阵 的 主 成 分 ， 可 得 两 个 特征 值 ， 然 


后 计算 











含有 三 行 的 子 和 矩阵 的 主 成 分 ， 得 三 个 特征 值 ， 仿 此 依次 增 大 子 和 矩阵 的 行 数 ， 直 至 计算 


完整 个 矩阵 ; 第 二 部 分 叫 反 向 计算 ,从 矩阵 的 最 后 两 行 开始 ， 仿 第 一 部 分 的 思路 然后 计算 含 
有 三 行 的 子 矩 阵 的 主 成 分 ， 依 次 增 大 子 和 矩阵 的 行 数 ， 直 至 计算 完整 个 和 矩阵。 这样 它 就 得 到 一 
系列 的 特征 值 ， 如 果 体 系 的 组 分 数 为 nx， 就 把 (n 十 4) 或 者 是 (x 十 3) 个 大 的 特征 值 的 对 数 
对 保留 时 间作 图 ， 而 得 到 各 物种 在 该 数据 矩阵 中 的 出 现 点 和 消失 点 。 当 然 ， 在 做 此 分 析 之 
前 ， 组 分 数 为 n 一 般 是 未 知 的 ， 所 以 一 般 是 多 取 几 个 ， 以 免 丢 失 有 用 信息 。 




















保留 时 间 前 向 计算 

















反 向 计算 
保留 时 间 ibo 














渐进 因子 分 析 法 示意 图 








仍 以 联 用 色谱 的 二 维 数据 为 例 ， 图 6-70 示 出 了 一 个 三 组 分 体系 的 渐进 因子 分 析 的 结果 





图 ， 从 














图 可 以 看 出 ， 渐 进 因子 分 析 的 结果 在 理想 的 情况 下 是 确实 能 为 我 们 确定 体系 物种 数 ， 

















及 确定 各 物种 在 该 数据 矩阵 中 的 出 现 点 和 消失 点 提供 重要 信息 。 以 后 我 们 可 以 看 到 ， 有 了 这 


样 的 信 








息 ， 将 对 下 一 步 的 纯 光 谱 和 纯色 谱 的 分 辨 提供 很 大 方便 。 








渐进 因子 分 析 法 虽 能 给 出 这 些 有 用 的 信息 ， 但 是 它 的 计算 量 是 比较 大 的 ， 如 要 完成 一 个 
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保留 时 间 一 一 > 
反 向 计算 结果 前 向 计算 结果 


ZZ 


保留 时 间 一 一 ~ 
渐进 因子 分 析 法 结果 示意 图 








100X60 阶 和 矩阵 的 计算 ， 大 约 需 要 几 小 时 ， 因 随 着 矩阵 的 增 大 ， 主 成 分 分 析 所 需 时 间 增 加 很 
多 ,而 且 ， 它 的 计算 是 分 两 个 方向 进行 的 ， 那 么 是 否 存 在 一 种 方法 ， 它 既 可 得 到 渐进 因子 分 
析 法 所 能 得 到 的 信息 ， 又 能 在 几 分 钟 之 内 完成 呢 ? 和 答案 是 肯定 的 ， 这 就 是 我 们 将 要 介绍 的 固 
定 尺 寸 移 动 窗口 渐进 因子 分 析 法 。 

国定 尺 才 移动 窗口 渐进 因子 分 析 法 “该 法 是 由 Keller 和 Massart 提出 [216] 。 其 思路 相当 
简单 ， 反 渐进 因子 分 析 法 逐步 扩大 主 成 分 分 析 窗 口 的 做 法 ， 它 却 固定 一 个 窗口 的 尺寸 ， 只 是 
不 断 将 此 窗口 从 二 维 数据 的 起 点 移 向 终点 ， 从 而 得 到 一 个 特征 值 的 对 数值 对 保留 时 间 的 作 
图 ， 以 得 到 二 维 色谱 数据 在 保留 时 间 方 向 的 信息 。 该 法 的 基本 算法 和 所 得 到 的 信息 将 图 示 于 
图 6-71。 从 图 6-71 (a) 可 以 看 出 ， 该 法 的 计算 过 程 为 : 四 先 选 择 一 个 窗口 的 尺寸 ， 一 般 为 
7， 即 选择 七 个 行 矢 量 组 成 一 个 子 矩 阵 ;， 外 用 这 样 的 尺 二 来 做 主 成 分 分 析 ， 可 得 七 个 特征 值 ; 
Gf 6-71 (a) 所 示 ， 依 次 移动 这 个 窗口 ， 如 先 算 1 一 7 行 所 组 成 的 子 和 矩阵 ， 然 后 ， 计 算 
2 一 8 行 所 组 成 的 子 和 矩阵 ， 直 到 计算 到 最 后 7 行 所 组 成 的 子 和 矩阵 ， 这 样 就 可 以 得 到 一 含 7 个 
特征 值 的 系列 ， 将 其 对 相应 的 保留 时 间 数 据点 作 图 将 得 到 如 图 6-71 (bo 所 示 的 结果 图 。 
Keller 和 Massart 提出 该 法 的 初衷 主要 是 要 进行 二 维 色谱 峰 的 纯度 检验 ， 就 如 网 6-71 (b) 
所 示 那 样 ， 如 果 该 色谱 峰 不 纯 ， 在 FSMFEFA 的 特征 值 对 数 图 中 就 会 出 现 一 个 小 峰 ， 这 个 
小 峰 的 存在 就 说 明 存 在 着 另 一 种 化 学 物质 。 因 在 此 图 中 第 一 个 特征 值 表 示 主 要 化 学 物质 的 存 
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保留 时 间 一 一 ~ 





保留 时 间 














保留 时 间 一 一 ~ 

(a) (b) 

固定 尺寸 移动 窗口 渐进 因子 分 析 法 示意 图 
(a) 方法 的 主要 思路 示意 ;(b) 方法 的 结果 示意 
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在 ， 而 第 二 个 特征 值 大 于 噪声 就 表示 在 它 出 现 的 区 域 还 存在 着 第 二 个 物种 ， 否 则 ， 这 个 色谱 
峰 始终 只 会 有 第 一 个 特征 值 很 大 ， 而 其 余 的 特征 值 都 接近 于 噪声 。 

然而 ， 在 使 用 这 一 技术 来 进行 二 维 色谱 峰 纯度 检验 时 ， 有 一 点 是 特别 值得 注意 的 ， 即 所 
谓 不 等 性 方差 噪声 的 影响 问题 ， 由 于 这 种 噪声 的 存在 ， 常 常 不 能 得 到 正确 的 结论 ， 具 体 的 例 
子 可 参见 文献 L217]。 由 于 在 实际 量 测 数据 中 经 常 存在 不 等 性 方差 噪声 的 情况 ， 即 量 测 噪 声 
随 分 析 信 和 号 大 小 而 变化 ， 例 如 在 紫外 可 见 光 谱 的 量 测 中 ， 量 测 噪声 的 绝对 值 在 一 定 范 围 中 随 
量 测 信和 号 而 增 大 ,但 量 测 的 相对 误差 却 相 对 稳定 ，Keller 和 Massart 对 此 在 HPLC-DAD fX 
器 上 进行 实验 研究 的 结果 证 实 了 这 一 结论 。 主 成 分 分 析 有 关 判 别 信号 和 噪声 的 区 别 是 基于 特 
征 值 的 绝对 值 的 大 小 ， 而 且 主 成 分 分 析 模 型 也 是 建立 在 等 性 方差 噪声 的 假设 之 上 的 ， 所 以 ， 
在 有 这 种 不 等 性 方差 噪声 存在 时 ， 主 成 分 分 析 就 很 难 奏效 了 。 为 此 我 们 提出 了 一 个 对 二 维 色 
谱 数 据 的 一 种 预 处 理 方法 ， 以 克服 不 等 性 方差 噪声 所 造成 的 困难 。 此 预 处 理 方 法 的 基本 思路 
很 简单 ， 即 对 那些 处 于 色谱 峰 的 光谱 (就 是 那些 光谱 积分 值 大 于 某 一 给 定 值 a 时 ) 进行 降幅 
处 理 ， 而 这 种 处 理 又 不 影响 数据 原 有 的 线性 结构 ， 不 至 于 影响 下 一 步 的 主 成 分 分 析 ， 它 可 由 
下 式 表 出 
















































































zi = (zt;/ x;)a WR». a 





式 中 ，z7 为 原始 二 维 数据 矩阵 中 第 ; 行 第 j 列 的 元 素 ; z7 则 为 处 理 后 的 数据 。 所 以 ， 
在 进行 了 这 样 预 处 理 后 的 数据 zz 的 光谱 积分 就 为 a。 经 这 样 处 理 后 ， 不 等 性 方差 噪声 就 可 
以 消除 了 。 图 6-72 示 出 了 这 样 的 实例 。 经 这 样 的 预 处 理 ， 我们 对 一 药物 体系 进行 纯度 检验 
的 结果 表明 ， 用 FSMWEFA 可 检 出 0.7% 的 异 构 不 纯 物 。 详 细 的 讨论 请 参看 文献 [217]. 
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(a) (b) 


两 个 药物 异 构 体 混合 体系 (两 色谱 峰 的 分 离 度 为 0.5; 含量 少 的 部 分 为 含量 高 组 分 的 0.7% ) 
之 特征 值 对 保留 时 间 变 化 图 
(a) 原始 数据 的 特征 值 的 对 数 对 保留 时 间 变 化 图 ， 从 图 可 以 看 出 有 四 个 特征 值 大 于 基线 水 平 ; (b) 数据 经 本 
节 讨 论 的 降幅 预 处理 后 的 特征 值 的 对 数 对 保留 时 间 变 化 图 ， 从 图 可 以 看 出 只 有 两 个 特征 值 大 于 基线 水 平 ， 可 检测 
出 0.7% 的 异 构 不 纯 物 
































还 有 一 点 在 此 提出 的 是 ， 实 际 上 FSMWEFA 不 只 限于 二 维 色谱 峰 的 纯度 检验 ， 它 也 可 
像 渐 进 因子 分 析 法 那样 用 于 一 般 的 多 组 分 体系 ， 这 在 本 章 后 面 还 会 详细 地 进行 讨论 。 这样 的 
一 种 改进 看 起 来 很 一 般 ， 可 是 ， 它 却 把 整个 计算 的 时 间 大 大 缩短 ， 因 为 它 的 主 成 分 分 析 (就 
用 MatLab 软件 所 提供 奇异 值 分 解 算法 可 直接 计算 ) 计算 始终 是 针对 一 个 很 小 的 子 和 矩阵 ， 这 
样 ， 完 成 一 个 二 维 色谱 数据 的 计算 一 般 只 需要 几 分 钟 ， 从 以 后 的 讨论 还 可 以 看 到 ， 它 不 但 可 
以 得 到 和 渐进 因子 分 析 法 EFA) 同样 的 信息 ， 而 且 从 某 种 角度 来 说 ， 是 更 准确 、 更 可 靠 
的 信息 ， 因 该 法 实质 上 用 的 是 一 种 局 部 主 成 分 分 析 的 方法 。 
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(ED & 子 分 析 法 

窗口 因子 分 析 法 (window factor analysis, WFA) 由 Malinowski 提出 [218] ， 其 主要 思 
路 是 利用 一 个 只 有 (2 一 1) 个 物种 的 “窗口 ?>， 从 而 求 出 那 第 ”个 物种 的 纯色 谱 来 ， 此 思路 
可 由 图 6-73 简要 示 出 。 


























CD 个 物种 第 7 个 物种 














保留 时 间 
窗口 因子 分 析 法 主要 思路 示意 图 





为 便于 理解 ， 在 此 我 们 仍 采用 前 面 所 采用 的 符号 ， 即 二 维 数据 矩阵 为 X， 用 主 成 分 分 析 
方法 对 此 二 维 数据 矩阵 X 进行 分 解 可 得 到 














X —TP' +E = Mus 十 五 
另外 ， 根 据 朗 伯 - 比 耳 定 律 可 知 ， 
X —CS' +E = Mos +E 
其 中 为 体系 的 组 分 数 。 因 为 T 和 C、Pt 和 Si 张 成 同一 线性 空间 ， 所 以 ， 我 们 有 
a= MBs; 或 5 一 之 /aip} (6-161) 
在 此 Bj 和 aij 分 别 为 线性 组 合 系数 。 


现 设 X 为 只 会 (n 一 1) 个 组 分 的 二 维 数据 矩阵 XX 的 一 个 子 和 矩阵 ， 为 方便 起 见 ， 就 为 只 
含 了 前 (2 一 1) 个 组 分 ， 经 主 成 分 分 析 可 得 到 (2 一 1) 正 交 矢量 ， 即 





n—l 


X =T°P* +E = Pytpt +E 
i—1l 





式 中 用 上 标 o 来 表示 这 些 正 交 矢量 ， 是 说 明 ro 与 1; 不 同 。 同 式 (6-161)， 有 


n—l n—l 
€ = wt 或 st = >) yypi (6-162) 
{=l j-l 

















在 此 与 式 (6-161) 不 同 的 是 ， 上 式 表 出 的 只 是 一 个 (G—1 维 的 X 的 子 空间 ， 即 只 能 将 那 
包括 在 此 区 域内 的 (n 一 1) 个 物种 。 事 实 上 ， 式 6-16 可 以 拓 广 至 维 空间 ， 即 通过 找 
到 一 个 与 pj? (7 一 1， ttt. 一 1) 正 交 的 矢量 p. 则 有 














9B ZN 


pi = D up? 
i=l 
因为 p WEZE, 很 容易 求 出 ， 即 
— t [9] 
Kij —Dpip;j 


问题 是 如 何 来 求 出 po? 对 式 (6-163 PH pick. MA 


20i = 24 (2oeus?) - X (Zes )p? 


i—l j-l1 4-4 1 
对 式 (6-164) 进行 重 写 ， 可 得 


n n n n—1 





多 元 校正 与 多 元 分 状 451 | 


(6-163) 


(6-164) 


2jpi — > (rup?) = 7 的 Heja 


i=1 i=l j=l j=l i=l 


n n—l n 


(Xen) p? = Xr: — > (vj 


i 一 1 j=1 一 1 


(6-165) 


实际 上 ， 式 (6-165) 就 给 出 了 一 个 求 得 py 的 方法 ， Pium. 的 所 有 量 都 为 已 知 量 


或 是 可 求 出 量 ， 而 左边 的 〈 42 则 只 是 一 个 正规 化 常 








这 样 得 到 的 由 (2 一 1) 维 子 空 TR RE 因 其 与 原始 的 
n 维 正 交 空间 p Cj —1. ,2) 可 以 相互 线性 表 出 ， 所 以 它们 实际 上 张 成 同一 空间 。 于 是 ， 无 
论 是 采用 p? G 二 1,…,n) 还 是 p jl, ., 7) 来 表示 该 体系 的 纯 物 种 光谱 都 是 可 行 的 。 所 





以 ， 有 


四 
a 


将 式 (6-166) RAR X= 》) cis! 可 得 


i-—l 


n n n 


= >e; (È rvspt)= 2 2 Vp 


i wm i=1j=1 
上 式 中 已 经 忽略 了 量 测 误差 矩阵 项 。 对 上 式 两 边 同 乘 po. ， 则 有 


n n 


Xp = P3 2 0g ip; )P5 


t= 








(6-166) 
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由 于 p? 与 p? G51, c 7 一 1) WEZ. HBp?p$—O G1, =, n—1), WUA 
XP8 = (X Yanci) pip? 
i=1 
pi s! 中 的 i 二 n， 即 纯 物 种 被 包括 在 那 (x 一 1) 个 之 中 时 ，s!; 都 可 以 由 前 (2 一 1) 个 


pj 来 线性 表 出 [参见 式 (6-162). ]， 此 时 就 有 Yi 对 除 n RES SUR i 来 说 都 等 于 零 ， 只 
s, 需要 ps 的 线性 组 合 得 到 ， 同 时 ， 注 意 到 是 可 以 归 一 化 的 ， 这 样 





XPa —YmCn (6-167) 


即将 归 一 化 后 的 ps 左 乘 整个 矩阵 X 时 ， 就 可 以 得 到 c, 与 一 常数 因子 yw 的 乘积 ， 也 就 是 
说 ， 我 们 得 到 了 纯 物 种 2 的 纯色 谱 ， 将 其 归 一 化 即 可 得 到 归 一 化 的 色谱 了 。 仿 此 对 其 他 
(n 一 1) 个 物种 同样 处 理 ， 只 要 我 们 都 可 以 找到 一 个 只 含 不 包括 要 找 的 色谱 在 内 的 其 他 
(n 一 1) 个 物种 存在 的 区 域 ， 或 称 窗口 ， 就 可 以 得 到 这 组 分 体系 的 唯一 的 分 辨 结 果 。 

从 上 述 讨论 可 知 ， 窗 口 因子 分 析 法 WFA) 的 具体 算法 可 由 下 述 几 步 组 成 。 

(1) 确定 只 会 (2 一 1) 个 组 分 的 二 维 数据 矩阵 X 的 一 个 子 和 矩阵 。 一 般 可 用 前 面 讨论 的 
固定 尺 才 移 动 窗口 渐进 因子 分 析 法 或 特征 结构 跟踪 分 析 ， 更 准确 地 得 到 在 保留 时 间 方 向 上 的 
化 学 秩 图 来 确定 。 

(2) 用 式 (6-165)， 即 


















































n n a—1 n 
8 > 
i— i= J 一 上 i= 
求 得 p%; 
(3) 用 式 (6-167)， 即 


Xp? =Y mEn 


即 可 求 得 e, 来 。 
(4) 重复 步骤 (OD 一 (3)， 直 至 求 得 所 有 的 ec， (i 二 1]，2,，…, n)， 继而 用 最 小 二 乘 
法 求 得 各 纯 物 质 光 谱 ， 即 


St —(C'C) CX 


Malinowski 将 WFA 对 Gemperline 和 Hamilton 所 做 的 一 套 流 动 注射 分 析 的 有 关 7 种 不 
同 匀 络 合 离子 数据 [2191 ETT T XR. 得 到 满意 的 结果 ， 有 兴趣 的 读者 可 参阅 文献 [219] 。 

(五 ) 直观 推导 式 演进 特征 投影 法 

从 前 面 的 讨论 中 可 以 看 到 ， 和 迭代 目标 转换 因子 分 析 法 (ITTFA)、 渐 进 因 子 分 析 法 
(EFA)、 固 定 尺 寸 移动 窗口 渐进 因子 分 析 法 (FSMWEFA) 以 及 窗口 因子 分 析 法 (WFA) 
这 些 方 法 都 是 在 利用 二 维 色 谱 的 某 些 化 学 特征 来 进行 解析 ， 实 际 上 它们 都 没有 把 二 维 色谱 数 
据 的 化 学 特征 用 透 ， 而 直观 推导 式 演 进 特征 投影 法 CHELP) 方法 则 由 在 充分 利用 二 维 色 谱 
数据 的 所 有 化 学 特征 。 所 以 ， 在 讨论 HELP 方法 之 前 ， 似 有 必要 对 二 维 色谱 数据 的 所 有 化 
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学 特征 进行 一 下 剖析 ， 以 便于 读者 对 该 法 的 理解 。 

二 维 色谱 数据 因 其 具有 以 下 对 分 析 化 学 特别 有 用 的 6 个 主要 化 学 特征 ， 所 以 它 可 为 分 析 
化 学 家 们 提供 机 会 ， 从 而 使 得 用 二 维 色谱 数据 解析 最 困难 的 黑色 分 析 体 系 成 为 可 能 。 以 下 将 
对 它们 一 一 加 以 详细 讨论 。 

d) 二 维 色 谱 数 据 同时 包含 了 光谱 与 色谱 信息 。 一 般 说 来 光谱 (如 质谱 、 红 外 光谱 、 紫 
外 可 见 光 谱 等 ) 能 提供 化 学 物质 的 大 量 定 性 信息 ， 而 色谱 则 能 提供 定量 信息 ， 如 果 条 件 控制 
得 好 ， 化 学 物质 的 保留 时 间 对 化 学 物质 的 定性 也 是 很 有 帮助 的 ， 这 说 明 二 维 数据 与 通常 的 一 
维 数据 相 比 ， 可 多 提供 很 多 新 信息 ， 为 分 析 化 学 家 提供 了 新 的 机 遇 ， 也 就 是 说 ， 可 以 同时 在 
光谱 或 色谱 空间 来 研究 我 们 的 样本 ， 为 我 们 直接 用 这 样 的 仪器 来 解析 复杂 的 多 组 分 分 析 化 学 
体系 提供 了 机 会 。 

(2) 色谱 仪器 具有 很 强 的 分 离 能 力 ， 它 可 将 一 个 很 复杂 的 分 析 体 系 分 解 成 为 多 个 相对 简 
单 的 子 体系 ， 这 样 ， 也 就 为 分 析 化 学 工作 者 提供 一 种 很 有 用 的 将 复杂 体系 变 为 简单 体系 的 工 
有 具 和 思路 ， 使 我 们 有 可 能 只 需 直接 处 理 这 些 相对 简单 的 体系 或 子 和 矩阵， 而 姐 需 直接 用 数学 方 
法 来 解析 复杂 的 多 组 分 分 析 化 学 体系 。 

(3) 纯化 学 物种 的 色谱 峰 有 一 个 也 只 有 一 个 最 大 峰值 ， 这 一 化 学 数据 的 特点 ， 可 为 我 们 
在 进行 数据 处 理 和 分 析 时 带 来 有 用 信息 。 

(4) 在 色谱 流出 时 ， 不 同 的 化 学 物质 是 依照 某 种 化 学 规律 依次 流出 和 依次 消失 的 ， 这 一 
村 点 ， 就 像 我 们 在 前 面 讨论 的 那样 ， 为 我 们 确定 茶 一 物质 的 色谱 保留 时 间 存 在 区 间 带 来 很 大 
方便 。 

(5) 在 二 维 色谱 数据 中 ， 经 常 很 容易 找到 所 谓 的 零 组 分 区 ， 即 在 一 段 保留 时 间 区 域内 没 
有 任何 化 学 物质 流出 ， 正 是 这 样 的 零 组 分 区 域 ， 为 我 们 直接 提供 了 在 这 一 样本 运行 条 件 下 的 
仪器 噪声 或 仪器 背景 的 有 用 信息 ， 这 一 信息 将 为 我 们 确定 体系 的 化 学 组 分 数 ， 即 将 分 析 信 和 号 
与 噪声 的 分 离 和 区 别 ， 提 供 重 要 信息 ， 此 外 ， 如 果 体 系 存 在 某 种 背景 ， 零 组 分 区 域 的 信息 ， 
也 将 直接 为 我 们 提供 有 用 的 仪器 背景 信息 。 

(6) 一 般 二 维 色谱 数据 都 是 非 负 实数 ， 像 在 本 章 第 一 节 中 看 到 的 ， 这 一 条 件 将 为 我 们 提 
供 很 有 用 的 约束 条 件 ， 从 而 大 大 缩小 了 我 们 的 搜索 空间 。 

有 了 这 样 的 前 提 ， 再 来 看 一 看 黑色 分 析 体 系 的 数学 模型 ， 即 





















































































































































X —CS' 十 五 


在 此 我 们 所 知 的 只 有 二 维 数据 量 测 矩 阵 羡 ， 而 对 于 C 和 Si: 一 无 所 知 ， 此 外 ， 就 是 对 C 
和 S' 中 各 有 多 少 行 与 多 少 列 ， 即 ”为 几 也 是 未 知 的 。 这 样 的 问题 在 数学 上 称 为 矩阵 反问 题 ， 
一 般 说 来 是 不 可 能 存在 唯一 解 的 ， 除 非 预 先 有 一 定 特殊 条 件 ， 这 在 讨论 自 模式 曲线 分 辨 方法 
时 其 实 就 已 经 看 到 ， 如 果 只 用 到 浓度 非 负 和 波谱 量 测 值 非 负 的 条 件 ， 最 多 就 只 能 得 到 可 能 
解 。 从 这 一 角度 来 看 ， 上 述 提 出 的 二 维 色谱 数据 的 化 学 特征 就 显得 十 分 重要 了 。 

直观 推导 式 演进 特征 投影 法 (HELP) 由 笔者 与 Kvalheim H jj f£ Hi 022220 ， 它 是 采用 
一 种 逐步 的 推导 式 方式 来 解析 二 维 色谱 数据 ， 与 自 模 式 曲 线 分 辨 法 仅 基 于 全 局 主 成 分 分 析 的 
思路 相反 ， 它 主要 基于 局 部 主 成 分 分 析 !222] ， 以 尽量 利用 色谱 的 分 离 特性 来 获得 各 子 矩 阵 的 
有 用 信息 ， 其 中 最 重要 的 是 所 谓 选 择 性 信息 ， 在 此 基础 上 ， 它 试图 根据 色谱 流出 数据 特性 来 
获得 在 色谱 保留 时 间 方 向 上 的 所 谓 “ 秩 图 ”， 实 际 上 就 是 色谱 保留 时 间 方 向 上 组 分 分 布 图 ; 
然后 根据 秩 图 和 所 得 的 选择 性 信息 来 对 重 全 的 色谱 或 光谱 进行 满 秩 分 解 ， 以 获得 唯一 解 。 下 
面 将 对 HELP 方法 提出 的 一 些 基 本 概念 和 解析 手段 作出 较 详细 的 讨论 。 
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【基本 概念 和 基本 过 程 】 

《一 ) 演进 特征 投影 图 和 选择 性 信息 

所 请 演进 特征 投影 图 实际 就 是 主 成 分 投影 图 。 首 先 ， 对 二 维 色谱 数据 进行 主 成 分 分 析 
(或 就 是 进行 奇异 值 分 解 分 析 ); 然后 从 两 个 空间 ， 即 所 请 的 色谱 空间 和 光谱 空间 ， 用 第 一 主 
成 分 对 第 二 主 成 分 作 图 ， 这 样 就 可 以 得 到 很 多 的 有 用 信息 。 在 讨论 这 些 有 用 信息 之 前 ， 有 必 
要 首先 来 讨论 一 下 二 维 色谱 数据 的 特点 以 及 此 时 采用 特征 投影 图 的 矢量 代数 的 基础 和 整体 优 
越 性 。 二 维 色谱 数据 实际 上 是 由 两 个 高 维 的 坐标 ， 即 光谱 的 波长 空间 坐标 和 色谱 的 保留 时 间 
空间 坐标 来 决定 ， 联 用 色谱 二 维 数据 的 每 一 个 光谱 点 ， 即 二 维 数据 中 的 每 一 行 都 是 一 个 在 某 
一 保留 时 间 点 的 光谱 ， 都 可 由 波长 坐标 空间 的 一 个 矢量 来 决定 ， 不 同化 学 物质 的 光谱 在 此 波 
长 坐标 空间 都 具有 不 同 的 位 置 。 一 般 说 来 ， 任 一 高 维 空间 的 矢量 可 完全 由 其 在 该 空间 的 方向 
和 大 小 来 唯一 确定 ， 这 为 用 矢量 来 讨论 二 维 色 谱 数 据 提供 了 很 大 方便 ， 也 就 是 说 ， 只 要 知道 
了 该 矢量 的 大 小 和 方向 也 就 完全 确定 了 该 矢量 。 同 理 ， 对 于 联 用 色谱 二 维 数据 的 每 一 个 色谱 
点 ， 即 二 维 数据 中 的 每 一 列 都 是 一 个 在 某 Eoo ni 间 的 一 个 矢 
量 来 决定 ， 不 同色 谱 在 此 保留 时 间 坐 标 空间 都 具有 不 同 的 位 置 。 这 一 情况 可 由 图 6-74 形象 
表示 。 这 样 ， 对 于 二 维 色谱 数据 ， 采 用 矢量 来 讨论 ELCHE 有 助 于 对 其 内 在 结构 的 
理解 ，; 这 也 就 是 我 们 运用 特征 投影 图 来 帮助 解析 二 维 色谱 数据 的 初衷 。 
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保留 时 间 " "m 
二 维 色谱 数据 在 波长 空间 与 色谱 保留 时 间 空间 所 提供 信息 的 示意 图 


二 维 色谱 数据 矩阵 中 列 矢量 都 是 一 个 在 某 一 波长 的 色谱 ; 
色谱 数据 矩阵 中 行 矢量 都 是 一 个 在 某 一 保留 时 间 点 的 光谱 


保留 时 间 | 


























另外 ， 在 矢量 空间 中 ， 一 个 矢量 的 决定 因素 在 于 其 方向 ， 即 如 果 它 的 方向 已 经 确定 ， 它 
就 可 唯一 地 在 此 高 维 空间 中 被 确定 ， 或 者 用 化 学 的 语言 来 说 ， 就 是 同一 种 化 学 物质 ， 它 的 光 
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谱 在 高 维 波长 空间 中 就 主要 由 其 方向 来 确定 ， 方 向 定 了 光谱 也 就 唯一 确定 了 ， 其 大 小 只 反映 
该 物种 的 浓度 。 所 以 ， 如 果 该 空间 只 存在 一 个 化 学 物质 ， 其 光谱 矢量 在 波长 空间 中 就 始终 在 

条 通过 原点 的 直线 中 变化 ， 因 其 方向 始终 不 变 。 如 果 把 这 些 矢量 都 看 成 是 高 维 波 长 空间 的 
一 系列 点 而 连 起 来 ， 它 们 将 是 一 条 通过 原点 的 直线 段 。 这 样 的 结论 对 色谱 保留 时 间 空 间 也 是 
同样 适用 的 ， 所 以 ,我们 可 以 从 两 个 方 品 来 讨论 二 维 色谱 数据 。 图 6-75 和 图 6-76 分 别 示 出 
了 在 波长 空间 和 色谱 保留 时 间 空 间 存在 选择 性 信息 的 情况 。 
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色谱 保留 时 间 空间 的 选择 性 信息 


如 前 所 述 ， 所 谓 演进 特征 投影 图 实际 就 是 主 成 分 投影 图 ， 在 此 我 们 将 就 主 成 分 投影 图 怎 
样 反映 上 述 高 维 空间 的 矢量 特性 来 进行 必要 的 说 明 。 所 谓 主 成 分 分 析 ， 实 质 上 就 是 对 二 维 数 
据 进行 奇异 值 分 解 (参见 第 十 四 章 )， 即 








X —UGP' = TP' 


AF, U NIEZE, RAFTE; T 为 U 和 G 的 乘积 ， 实际 上 它 的 性 质 与 U 
基本 一 致 ，G 为 一 对 角 和 矩阵 ， 收 集 了 XX 矩阵 的 特征 值 ， 如 与 前 述 特 征 值 对 应 的 话 ， 是 匀 矩 
阵 的 协 方 差 阵 所 得 特征 值 的 平方 根 ， 书 :为 一 行 正 交 和 矩阵 ， 也 称 为 载荷 矩阵 。 根 据 已 :的 正 交 
性 对 上 式 两 边 同时 右 乘 P， 则 可 得 











XP—T 或 xtP=t! (6-168) 





实际 上 ， 式 “6-168) 即 表示 将 矩阵 XX 的 每 一 个 行 矢量 (或 者 说 每 一 个 光谱 投影 到 正 
交 载 荷 矩 阵 卫 之 上 ， 就 得 到 了 得 分 和 矩阵， 所 以 得 分 矩阵 实际 上 就 反映 了 光谱 之 间 的 相互 关 
A. HE. 根据 了 的 正 交 性 对 上 式 两 边 同 时 左 乘 T+， 则 可 得 
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T'X—P' 或 T'x;—pi (6-169) 








即 表示 将 和 矩阵 X 的 每 一 个 列 矢量 x; (或 者 说 每 一 个 色谱 ) 投影 到 正 交 得 分 矩阵 五 之 
上 ， 即 得 到 载荷 矩阵 ， 所 以 ,载荷 矩阵 实际 上 就 反映 了 色谱 之 间 的 相互 关系 。 这 样 ， 束 可 以 
在 低 维 空间 来 直接 观察 高 维 光谱 和 色谱 之 间 的 相互 关系 了 。 在 演进 特征 投影 图 中 ， 一 般 只 需 
取 两 个 特征 矢量 来 作 图 就 够 了 ， 当 然 ， 如 果 能 用 三 维 的 特征 投影 图 应 可 得 到 更 形象 的 信息 。 

在 此 特别 提出 的 是 ， 由 于 色谱 依次 流出 的 性 质 ， 而 使 得 二 维 色谱 数据 具有 一 个 很 重要 的 
特点 ， 即 如 果 用 曲线 将 这 些 投影 点 列 连 起 来 ， 就 可 以 很 容易 地 得 到 在 二 维 色谱 数据 中 的 各 化 
学 物种 依次 流出 的 信息 ， 这 也 是 我 们 将 其 称 为 演进 特征 投影 图 的 初 囊 。 总 的 说 来 ,利用 演进 
特征 投影 图 ， 可 以 很 容易 地 得 到 以 下 有 用 信息 。 

(D 色谱 和 光谱 空间 的 选择 性 信息 ”特征 投影 图 中 经 延长 可 通过 原点 的 直线 (基于 最 小 
二 乘 意义 的 )， 就 代表 色谱 和 光谱 空间 的 选择 性 信息 ， 用 化 学 的 语言 来 说 就 是 所 谓 单 组 分 区 。 
得 分 投影 图 中 显示 的 通过 原点 的 直线 段 就 表示 在 色谱 (保留 时 间 方 向 ) 空间 中 存在 着 选择 性 
信息 ， 亦 即 在 保留 时 间 的 某 一 区 域 是 纯 组 分 区 ， 从 这 里 取出 的 光谱 一 定 是 某 一 种 化 学 物质 的 
纯 光 谱 ; 同 理 ， 载 荷 投影 图 中 显示 的 通过 原点 的 直线 段 就 表示 在 光谱 (波长 方向 ) 空间 中 存 
在 着 选择 性 信息 ， 亦 即 在 波长 的 某 一 区 域 是 纯 组 分 区 ， 从 这 些 波长 中 取出 的 色谱 一 定 是 某 一 
种 化 学 物质 的 纯色 谱 。 图 6-77 和 图 6-78 分 别 示 出 了 一 个 两 组 分 体系 和 三 组 分 体系 的 特征 投 
影 图 的 例子 。 这 样 的 特征 投影 图 很 重要 ， 据 此 可 以 很 容易 地 找到 色谱 和 光谱 的 选择 性 信息 ， 
也 就 是 说 ， 我 们 在 此 充分 地 利用 了 二 维 色谱 数据 的 分 离 性 质 。 
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(c) (d) 


模拟 两 组 分 体系 及 其 特征 投影 图 
(a) 模拟 体系 两 个 纯 组 分 的 色谱 ;，(b) 模拟 体系 两 个 纯 组 分 的 光谱 ; (c) 波长 空间 的 特 
征 投影 图 ，(d) 保留 时 间 空 间 的 特征 投影 图 图 中 标 出 的 a，b 部 分 为 体系 的 选择 性 信息 。 从 
图 中 可 以 看 出 ， 这 样 的 选择 性 信息 可 由 特征 投影 图 中 的 指向 原点 的 直线 段 中 找 出 



































(2) 体系 中 各 组 分 流出 情况 及 其 数目 的 确定 信息 不 同 的 化 学 物种 在 演进 特征 投影 图 中 
都 具有 不 同位 置 〈 或 不 同方 向 )， 所 以 ， 当 一 种 新 的 化 学 物种 出 现 的 时 候 ， 如 果 它 为 第 一 个 ， 
则 为 一 从 原点 出 发 而 不 断 增 大 的 直线 ， 而 当 此 物种 是 第 二 或 更 后 才 流 出 来 的 ， 则 会 在 演进 特 
征 投影 图 上 与 第 一 物种 的 点 列 形 成 各 种 曲线 ， 从 而 为 我 们 提供 体系 各 物种 依次 流出 的 信息 
(参见 图 6-77 和 图 6-78)。 这 种 信息 不 但 对 体系 的 组 分 数 确定 具有 十 分 重要 的 意义 ， 而 且 ， 
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它 还 可 以 用 来 区 别 不 同 的 流出 模式 ， 这 样 的 例子 示 于 图 6-79， 这 也 是 我 们 将 此 特征 投影 图 称 
为 演进 特征 投影 图 的 原因 。 
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(c) (d) 


模拟 三 组 分 体系 及 其 特征 投影 
Ca) 模拟 体系 三 个 纯 组 分 的 色谱 ; (bo 模拟 体系 三 个 纯 组 分 的 光谱 ; (CO 波长 空间 的 特征 投影 
Kl; (d) 保留 时 间 空 间 的 特征 投影 图 图 中 标 出 的 a，b 部 分 为 体系 的 选择 性 信息 。 从 图 中 可 以 看 
出 ， 与 两 组 分 体系 相 比 ， 三 组 分 体系 因 光 谱 重 关 比 两 组 分 体系 严重 ， 已 难以 找到 选择 性 信息 
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PC, PC PC, 
(a) " (c) 


3 种 不 同 的 大 色谱 峰 包 小 色谱 峰之 模式 及 其 相应 特征 投影 








(3) 二 维 色谱 数据 的 背景 信息 “如果 二 维 数据 中 不 存在 有 背景 ， 则 零 组 分 区 的 投影 点 应 
收敛 于 投影 图 中 的 原点 ， 反 之 ， 如 果 零 组 分 区 的 投影 点 不 收敛 于 原点 ， 则 说 明 数 据 中 存在 着 
背景 ， 在 做 进一步 的 分 析 之 前 必须 想法 扣除 背景 的 影响 ( 详 见 以 后 的 讨论 )。 在 图 6-80 中 示 
出 了 这 样 的 一 个 例子 。 这 是 因为 如 果 零 组 分 区 的 光谱 为 很 小 的 服从 正 态 分 布 的 误差 矢量 ， 则 
其 投影 点 相对 于 含有 某 种 结构 的 光谱 所 代表 的 投影 点 一 定 在 数值 很 小 且 随 机 的 收敛 于 原点 。 
所 以 ， 这 样 的 特征 投影 图 就 为 我 们 提供 了 一 个 方便 的 检测 在 二 维 色 谱 数 据 中 是 否 存 在 背景 的 
工具 
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ERED 叶绿素 a 降解 混合 物 的 背景 扣除 前 后 的 特征 投影 图 比较 
(a) 叶绿素 a 降解 混合 物 的 背景 扣除 前 的 特征 投影 图 零 组 分 区 的 光谱 投影 远离 投影 图 原点 ; 
(b) 叶绿素 a 降解 混合 物 的 背景 扣除 后 的 特征 投影 图 零 组 分 区 的 光谱 投影 丝 收 敛 于 投影 图 原点 





























RI 


(二 ) 特征 结构 跟踪 分 析 与 秩 

特征 结构 跟踪 分 析 [22 引 实际 上 是 对 固定 尺寸 移动 窗口 浙 进 因子 分 析 法 (FSMWEFA) 的 
一 种 拓 广 。 如 前 所 述 ，FSMWEFA 可 明显 提高 EFA 的 运算 速度 ， 且 可 同样 提供 我 们 所 需要 
的 各 组 分 在 保留 时 间 方 向 上 的 分 布 信息 ， 但 是 ， 有 一 点 必须 指出 的 是 ， 固 定 窗口 的 尺寸 选取 
还 存在 着 一 些 问题 。 当 然 ， 如 果 只 将 FSMWEFA 用 于 色谱 峰 的 纯度 检验 时 ， 固 定 窗 口 的 尺 
才 并 不 重要 ， 但 是 如 果 想 通过 这 一 技术 来 获取 各 化 学 组 分 在 保留 时 间 方 向 上 的 分 布 信息 的 
话 ， 窗 口 大 小 的 选取 就 十 分 重要 了 。 实 际 上 ， 可 以 这 样 认为 ， 移 动 窗口 的 大 小 是 与 其 检测 的 
敏感 度 和 选择 性 息息相关 的 ， 一 般 说 来 ， 如 移动 窗口 尺寸 大 一 些 ， 它 的 检测 第 二 组 分 的 敏感 
度 也 相对 高 一 些 ， 而 其 检测 单 组 分 区 〈 选 择 性 区 域 ) 的 选择 性 则 越 小 。 如 一 个 单 组 分 区 仅 含 
两 个 保留 时 间 点 ， 用 包含 三 个 保留 时 间 的 移动 窗口 就 会 将 此 有 用 的 单 组 分 区 域 漏 掉 。 这 样 的 
例子 示 于 图 6-81。 如 果 说 选择 性 信息 对 二 维 色 谱 数 据 的 分 辨 具有 很 重要 的 意义 的 话 (这 一 点 
将 于 以 后 给 予 详细 讨论 )， 那么 从 最 小 可 能 的 窗口 来 使 用 这 一 技术 就 十 分 重要 了 。 特 征 结构 
跟踪 分 析 (ETA) 的 提出 就 正 是 建立 在 这 一 基础 之 上 ， 它 从 窗口 等 于 2 个 保留 时 间 点 开始 
进行 移动 计算 ， 然后 增 大 窗口 尺寸 为 3， 再 进行 一 次 移动 计算 ， 一般 说 来 ， 只 要 窗口 尺寸 的 
大 小 与 该 体系 中 重 受 峰 中 的 组 分 数 相当 时 ， 计 算 即 可 停止 。 在 此 ， 移 动 窗口 的 大 小 选择 还 与 




















































































































保留 时 间 保留 时 间 
(a) (b) 
叶绿素 a 降解 混合 物 的 特征 结构 跟踪 分 析 图 
Ca) 窗口 尺寸 为 2 的 特征 结构 跟踪 分 析 图 ， 从 图 可 见 ，B，C，D, E 皆 为 选择 性 区 域 ; 
(b) 窗口 尺寸 为 3 的 特征 结构 跟踪 分 析 图 ， 其 中 D 区 明显 不 是 选择 性 区 域 了 
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色谱 分 辨 率 或 色谱 采样 点 的 玖 密 有 关 ， 所 以 ,窗口 尺寸 的 大 小 还 需 根据 具体 数据 情况 而 定 ， 
切 不 可 简单 使 用 一 个 尺寸 。 由 此 我 们 将 可 得 到 一 各 组 分 在 保留 时 间 方 向 上 的 分 布 信息 图 ， 我 
们 称 之 为 “化 学 秩 图 ”， 我 们 据 此 可 将 整个 保留 时 间 轴 上 的 按 重 全 的 化 学 组 分 数 分 成 不 同 的 
区 域 。 这 样 产生 出 来 的 秩 图 将 示例 于 图 6-82。 这 样 得 到 的 秩 图 很 重要 ， 据 此 我 们 可 以 充分 利 
用 色谱 的 分 离 特 性 (二 维 色谱 数据 的 第 二 特点 )。 
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借 特 征 结构 跟踪 分 析 技术 所 得 的 两 个 三 组 分 


分 析 体 系 在 色谱 保留 时 间 轴 上 的 秩 图 
Ca) 为 一 两 两 重 半 的 色谱 峰 ， 局 部 秩 最 高 为 2;(b) 三 组 分 重 县 色谱 峰 ， 局 部 秩 最 高 为 3 






































































































































(=) 零 组 分 区 和 二 维 色谱 数据 的 背景 扣除 

零 组 分 区 在 二 维 色 谱 数据 中 十 分 重要 ， 可 是 ， 这 一 重要 的 信息 一 般 都 被 忽视 ， 所 以 ,我 
们 认为 有 必要 在 这 里 特别 提出 来 讨论 。 零 组 分 区 的 重要 意义 可 表现 在 以 下 两 方面 中 如 果 二 
维 色谱 数据 不 存在 背景 ， 则 零 组 分 区 可 直接 提供 就 在 这 一 次 量 测 中 的 仪器 噪声 情况 ， 这 样 直 
接 提 供 的 仪器 量 测 噪声 对 用 主 成 分 分 析 中 的 主 成 分 的 正确 确定 将 带 来 很 大 方便 ， 这 一 点 在 本 
章 第 一 节 就 进行 了 说 明 。 另 外 ， 即 便 是 同一 种 仪器 ,不同 的 运行 情况 ， 噪 声 的 特性 亦 有 不 
同 ， 所 以 如 果 我 们 对 同一 仪器 总 是 假设 它们 具有 同一 噪声 水 平 也 是 不 严格 的 。 从 这 一 角度 来 
看 ， 二 维 色谱 数据 中 零 组 分 区 提供 的 同一 次 量 测 中 的 仪器 噪声 情况 就 具有 特殊 意义 了 。 怎 样 
有 效 地 利用 零 组 分 区 的 噪声 信息 来 决定 体系 的 噪声 水 平 ， 文 献 C224] 中 作出 了 较 详细 的 讨 
论 ， 有 兴趣 的 读 考 可 参阅 该 文献 ， 在 此 不 再 赣 述 。 包 如 果 在 二 维 色谱 数据 存在 背景 ， 零 组 分 
区 则 可 直接 提供 就 在 这 一 次 量 测 中 的 仪器 所 产生 的 背景 情况 ， 就 利用 这 一 信息 我 们 可 以 对 二 
维 色谱 数据 的 背景 进行 扣除 。 在 此 有 必要 指出 的 是 ,背景 的 存在 将 对 主 成 分 分 析 带 来 很 大 的 
影响 ， 它 不 但 影响 体系 组 分 数 的 正确 确定 〈 如 果 是 具有 色谱 漂移 的 背景 一 般 可 将 体系 的 秩 增 
加 2， 有 关 详 细 讨论 读者 可 参阅 文献 [225] )， 而 且 ， 它 的 存在 对 二 维 色谱 数据 的 分 辩 亦 影 
啊 很 大 。 所 以 ， 在 对 二 维 色谱 数据 进行 解析 之 前 ， 如 没 对 存在 的 背景 进行 扣除 ， 必 将 得 到 很 
差 甚 至 是 错误 的 结果 。 我 们 根据 零 组 分 区 信息 提出 了 一 种 二 维 色谱 数据 的 背景 扣除 方 
法 [32 中， 以 下 对 该 法 作出 简要 介绍 。 

该 法 的 基本 点 就 是 充分 地 利用 零 组 分 区 的 信息 ， 因 在 零 组 分 区 中 没有 化 学 物质 存在 ， 所 
以 ， 如 果 在 零 组 分 区 存在 某 种 具有 规律 性 的 信号 ， 就 实质 上 应 该 是 反映 了 仪器 的 背景 情况 。 
该 法 的 基本 思路 是 比较 一 个 色谱 峰 得 的 流出 前 和 流出 后 的 局 部 主 成 分 分 析 所 得 的 载荷 矢量 
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(有 时 亦 称 抽象 光谱 ) ， 计 算 它 们 的 相合 系数 ， 即 此 两 个 矢量 的 点 积 ， 如 果 它 们 的 相合 系数 等 
于 1 或 十 分 接近 于 1 的 话 ， 就 说 明 在 此 色谱 峰 附近 存在 同一 的 仪器 背景 ， 应 该 且 能 被 有 效 的 
扣除 。 此 思路 可 由 图 6-84 示意 表 出 。 

设 我 们 所 得 到 的 二 维 色谱 数据 为 X， 如 果 还 考虑 到 仪器 的 背景 ， 似 可 以 把 此 和 矩阵 分 成 两 
部 分 ， 即 























X —X. +X, +E 





式 中 ,，X.。 表 示 二 维 色谱 数据 的 主要 信息 ， 它 们 来 自体 系 存 在 的 化 学 物质 ; 五 为 随机 误 
差 ; 而 Xb 则 表示 来 自 仪器 的 背景 ， 因 在 考虑 光谱 背景 的 同时 还 需 考 虑 色谱 方向 的 漂移 ， 所 
以 它 可 由 下 式 表 出 ， 








Xy —t1' o 1s! 





在 此 我 们 将 仪器 的 色谱 漂移 和 光谱 背景 分 别 用 上 和 s' 来 表示 ， 式 中 的 1' 和 1 为 所 有 元 素 
ROM 1 的 矢量 ， 其 维 数 由 二 维 色谱 数据 的 列 数 和 行 数 来 决定 。 从 上 式 可 以 看 出 ，Xb 为 秩 为 2 
的 矩阵 。 

为 讨论 方便 ， 将 在 以 下 的 叙述 中 将 随机 误差 包 略 ， 则 有 ， 

X — X.-F tl c 1s* (6-170) 
即 


Xij =X. tt; tsi 








如 果 通 过 用 特征 投影 图 检 出 了 在 原始 数据 中 存在 背景 信息 ， 背 景 扣除 就 可 以 根据 以 下 步 
又 来 进行 〈 参 见 图 6-83), 








零 组 分 区 (b) 
TUIS ge - 











(b) (a) 


保留 时 间 
EE) 背景 漂移 扣除 过 程 示意 图 
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Q 采用 局 部 主 成 分 分 析 方法 对 色谱 峰 流 出 前 和 流出 后 的 零 组 分 区 部 分 进行 主 成 分 分 析 ， 
分 别 取 出 两 个 部 分 第 一 个 的 载荷 矢量 进行 相合 比较 ， 即 


pbpa 1 





在 此 pb 和 ps。 分别 表示 色谱 峰 流 出 前 和 流出 后 的 第 一 个 载荷 矢量 ， 如 果 它 们 的 相合 系数 接近 
于 1， 这 说 明 我 们 找到 了 背景 光谱 ， 也 就 是 说 找到 了 式 (6-170)〉 中 的 st, 

O 采用 上 述 主 成 分 分 析 所 得 的 两 个 部 分 第 一 个 得 分 矢量 ， 或 一 有 代表 性 的 波长 段 ， 来 
对 整 段 保 留 时 间 点 进行 最 小 二 乘 拟 合 ， 以 得 到 式 〈6-170) PHY t. 

© 用 如 此 得 到 的 s+ 和 +t 来 进行 背景 扣除 ， 即 

















X, —X — (tit +1st) 





因为 本 文 所 述 的 方法 是 由 直线 最 小 二 乘 求 出 的 ， 所 以 ， 对 于 一 个 较 复 杂 的 二 维 色谱 数据 ， 需 
要 采用 分 段 扣 除 的 办 法 ， 这 一 情况 可 由 图 6-84 表 出 。 




















保留 时 间 
分 段 背 景 漂移 扣除 过 程 示意 图 














我 们 采用 此 法 对 几 个 不 同 的 二 维 色谱 体系 进行 了 背景 漂移 的 扣除 ， 皆 得 到 较 好 结果 ， 其 
中 最 有 代表 性 的 是 对 叶绿素 a 降解 体系 的 解析 ， 有 兴趣 的 读者 可 参阅 文献 [224] 的 图 9 和 
图 10。 在 背景 扣除 的 方法 中 ， 经 常 有 人 提 到 双 中 心 化 方法 ， 在 文献 1224] 中 我 们 对 双 中 心 
化 方法 也 进行 了 较 详 细 的 讨论 ， 发 现 该 法 的 确 可 以 消除 二 维 色谱 数据 的 背景 的 影响 ， 但 是 ， 
它 却 引起 外. 各 局 部 区 域 的 秩 发 生变 化 ， 尽 管 它 可 保持 整个 矩阵 的 秩 不 发 生变 化 。 此 外 ， 它 
还 将 破坏 二 维 色谱 数据 的 非 负 性 ， 使 经 双 中 心 化 校正 后 的 矩阵 出 现 负 元 素 ， 而 不 利于 下 一 步 
的 分 辩解 析 。 

另外 ， 此 法 只 讨论 了 色谱 方向 漂移 为 直线 的 情况 ， 因 此 ， 可 以 说 只 能 适用 于 一 些 漂 移 不 
严重 的 二 维 色谱 数据 的 背景 扣除 ， 对 于 某 些 色谱 漂移 很 严重 的 体系 ， 色 谱 方向 漂移 可 能 不 是 
直线 ， 而 且 ， 光 谱 背 景 也 可 能 因为 色谱 的 梯度 洗 脱 等 原因 而 发 生 改 变 ， 对 于 这 样 的 体系 ， 如 
可 进行 有 效 的 背景 扣除 仍 为 一 值得 研究 的 重要 课题 。 希 望 能 引起 广大 同行 的 关注 。 

(UU) 选择 性 信息 与 满 秩 分 辩 

正如 前 面 所 讨论 的 ， 选 择 性 信息 对 于 二 维 色谱 数据 具有 重要 意义 ， 它 可 使 一 些 常 见 的 重 
释 模 式 得 到 唯一 解 ， 这 就 是 我 们 以 下 将 要 讨论 的 满 秩 分 辨 方法 。 

从 前 面 的 讨论 可 知 ， 借 特征 结构 跟踪 分 析 ETA) 和 特征 投影 图 可 以 找到 选择 性 信息 ， 
即 单 组 分 的 纯 组 分 光谱 或 色谱 区 域 ， 这 些 选择 性 信息 找 出 对 二 维 色谱 数据 的 分 辨 将 带 来 很 有 
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用 的 信息 。 回 忆 我 们 在 讨论 目标 转换 迭代 因子 分 析 法 (ITTFA) 时 曾 指出 ， 如 果 我 们 找到 
了 一 个 满 秩 旋转 矩阵 R， 也 就 可 以 将 主 成 分 分 析 所 得 到 的 抽象 光谱 和 抽象 色谱 转换 成 为 体系 
的 纯 光 谱 和 纯色 谱 ， 所以， 很 多 二 维 色 谱 数 据 的 分 辨 方法 的 目的 也 就 在 于 找到 这 个 转换 矩阵 
R 。 下 面 将 会 看 到 ，HELP 方法 的 满 秩 分 辩 是 怎样 利用 选择 性 信息 来 唯一 求 得 这 一 转换 矩阵 
R 的 ， 对 于 各 组 分 浓度 分 布 矢 量 的 情况 ， 有 


















































c; =Tr; 
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从 此 式 可 以 看 出 ， 因 为 工 和 矩阵 可 由 主 成 分 分 析 求 出 ， 如 果 我 们 知道 c，(G 王 1，…，7) 的 某 
些 已 知 信息 ， 就 可 以 利用 这 些 信息 来 求 得 r>; ， 求 得 r; 以 后 ， 再 利用 此 式 算 出 整个 cj; 来 。 问 
题 的 关键 是 我 们 怎样 来 利用 所 谓 的 “ 某 些 已 知 信息 ”? 
































rz Tj aiio, p! Tio i6550,j (1,3) 


满 秩 分 辨 过 程 示意 图 


从 前 面 的 讨论 可 知 ， 利 用 演进 特征 投影 图 和 特征 结构 跟踪 分 析 方 法 ， 可 以 得 到 某 些 组 分 
的 选择 性 信息 和 秩 图 ， 对 于 图 6-85 所 示 出 的 三 组 分 体系 ， 可 以 很 容易 地 找到 第 一 流出 组 分 
和 第 三 流出 组 分 的 选择 性 区 域 和 它们 的 零 浓 度 区 域 (参见 图 6-85 的 阴影 部 分 )， 现 以 第 一 流 
出 组 分 为 例 来 说 明 HELP 方法 的 满 秩 分 辨 过 程 。 首 先 找 到 它 的 选择 性 区 域 ， 记 为 c,,1， 然 后 
找到 它 的 零 浓 度 区 域 ， 记 为 co0,1。 因 为 在 第 一 流出 组 分 的 选择 性 区 域 里 ， 只 有 它 一 个 组 分 存 
TE. 所以， 此 时 的 色谱 就 是 该 组 分 的 纯色 谱 浓 度 分 布 ， 此 外 ， 在 该 组 分 的 零 浓 度 区 域 中 ， 很 
明显 ，co,l 的 每 一 个 元 素 都 等 于 零 ， 把 这 两 部 分 合 起 来 〈 参 见 图 6-85 的 下 面部 分 )， 并 把 它 
记 为 co+,1， 这 样 ， 我 们 就 找到 了 第 一 流出 组 分 的 “ 某 些 已 知 信息 ”。 于 是 ， 我 们 就 可 把 上 
式 改 写成 















































Cots, 1 = Torsri 


式 中 ，To+, 表 示 得 分 矩阵 工 中 的 与 第 一 流出 组 分 的 选择 性 区 域 和 零 浓度 区 域 的 相对 应 
部 分 (参见 图 6-85)。 因 选择 性 区 域 包含 了 第 一 流出 组 分 的 信息 ， 而 零 浓 度 区 域 又 包含 了 其 
余 两 个 组 分 的 信息 ， 所 以 ， 这 样 得 到 的 To+, 虽 说 只 是 工 和 矩阵 的 一 个 子 和 矩阵 ， 但 它 实际 上 已 
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包含 了 3 个 组 分 的 信息 ， 为 一 满 秩 和 矩阵， 故 可 求 得 唯一 解 。 当 然 ， 由 于 只 为 了 和 矩阵 一 部 分 ， 
它 就 不 能 保持 工 和 矩阵 的 正 交 性 了 。 因 为 To+, 为 一 满 秩 矩阵 ， 而 cu, ;又 是 已 知 的 ， 这 样 就 
可 以 很 容易 地 利用 最 小 二 乘 方法 来 对 上 式 求解 了 ， 即 
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求 得 ri 后， 再 利 月 
选择 性 区 域 和 零 浓度 





uM t 一 Tt 
rı = (Top Tots) ! To5€o. 1 





JERE, 








H5X e, 一 Tri 即 可 求 得 整个 cj 来 。 对 于 es 可 采用 同样 的 方法 ， 先 找到 它 的 
区 域 以 得 到 相应 的 工 矩 阵子 矩阵 ， 同 样 采用 cs 王 Trs 式 即 可 求 得 cs 。 
求 出 cl 和 cs 后 ， 在 选择 性 区 域 中 可 得 到 si 和 ss， 利 用 下 式 即 可 得 到 组 分 2 的 二 维 色谱 


X2 =X — (e4sj 十 cs3s5) 





因 XX 为 一 单 组 分 的 二 维 色谱 和 矩阵 ， 为 一 双 线 性 矩阵 ， 对 其 直接 分 解 即 可 求 得 它 的 纯 组 分 光 

谱 和 色谱 来 。 上 述 满 秩 分 解 算 法 是 可 以 推广 到 多 于 三 组 分 的 混合 体系 的 ， 我 们 将 此 推广 称 为 

组 分 剥离 过 程 ， 这 一 过 程 可 由 图 6-86 形象 表 出 ， 有 关 详 细 的 讨论 读者 可 参阅 文献 [226]. 
组 分 1 的 选 















































































































































































































































组 分 1 的 零 组 分 5 的 零 组 分 5 的 选 
择 性 窗口 浓度 窗口 浓度 窗口 择 性 窗口 
123/45 1234 5 
| 保留 时 间 满 秩 分 辨 | pun || 
i ORE 
波长 保留 时 间 保留 时 间 波长 
组 分 2 的 先 组 分 2 的 | 、 组 分 剥离 ”组 分 4 的 先 
择 性 窗口 零 浓 度 窗口 ” 组 分 4 的 零 浓度 窗口 ” 择 性 窗口 
2 3 A 2.3 44 
保留 时 间 | 保留 时 间 | 
满 秩 分 辨 并 进行 组 分 剥离 
3 














组 分 剥离 过 程 示 
首先 对 已 知 选择 性 信息 和 零 浓 度 
它们 的 纯色 谱 及 纯 光 谱 ， 然 后 消除 它 
继续 使 用 此 法 ， 可 将 此 5 
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区 的 组 分 1 和 组 


AM 


分 5 进行 满 秩 分 辨 ， 可 得 
站 的 影响 ， 使 该 体系 成 为 一 个 3 组 分 体系 ， 
组 分 体系 全 部 分 角 

【基本 解析 步骤 】 
CO 背景 


背景 的 检测 和 扣除 ”利用 演进 特征 投影 图 对 要 分 辨 的 数据 进行 分 析 ， 如 果 零 组 分 区 
域 的 光谱 投影 点 没有 集中 于 原点 ， 则 表示 存在 


db EL 


月 5: 





然后 利用 零 组 分 区 域 的 信息 来 扣 
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除 背 景 。 


(2) 数据 预 处 理 与 体系 组 分 数 的 确定 ”对 于 存在 有 不 等 性 方差 噪声 的 数据 ， 在 用 特征 结 
构 跟 踪 分 析 (ETA) 来 确定 体系 的 秩 图 之 前 ， 有 必要 进行 预 处 理 。 另 外 ， 在 决定 体系 的 组 
分 数 时 ， 同 样 有 必要 利用 演进 特征 投影 图 ， 因 此 图 对 各 组 分 的 依次 流出 将 给 出 很 重要 的 信 
息 ， 以 帮助 证 实体 系 的 组 分 数 。 

(3) 选择 性 信息 和 零 浓 度 区 的 确定 ”同时 利用 演进 特征 投影 图 和 特征 结构 跟踪 分 析 所 得 
的 秩 图 来 确定 选择 性 区 域 以 及 该 组 分 的 零 浓度 区 域 。 

(4) 纯 组 分 光谱 和 色谱 的 满 秩 分 辨 利用 满 秩 分 辨 技术 对 已 知 选择 性 信息 和 堆 浓度 区 域 
的 组 分 进行 分 辨 ， 求 得 其 转换 矢量 以 获得 该 组 分 的 纯 光 谱 和 纯色 谱 。 对 于 组 分 数 大 于 3 的 多 
组 分 体系 ， 可 采用 组 分 剥离 技术 来 逐步 进行 。 

(5) 对 分 辨 所 得 结果 进行 证 实 ” 将 分 辨 所 得 的 各 纯 光 谱 与 纯色 谱 乘 积 的 线性 加 合 结果 与 
实际 数据 进行 比较 ， 以 进一步 确证 所 得 结果 的 可 靠 性 。 

从 以 上 所 讨论 的 这 五 步 可 以 看 出 ， 直 观 推 导 式 演进 特征 投影 法 CHELPO 是 以 逐步 推导 
的 方式 ， 层 层 深入 地 来 解析 二 维 色谱 数据 ， 从 背景 的 检 出 和 扣除 、 不 等 性 方差 噪声 的 预 处 
理 、 选 择 性 信息 的 确定 、 秩 图 和 色谱 流出 模式 的 确定 一 直到 最 后 的 满 秩 分 辨 ， 每 一 步 都 是 从 
直观 的 特征 投影 图 、 局 部 因子 分 析 和 特征 结构 跟踪 分 析 的 所 得 的 形象 结果 来 进行 的 ， 这 也 是 
我 们 将 此 法 称 之 为 直观 推导 式 方法 的 原因 。 

在 此 还 需 指 出 ， 我 们 在 此 讨论 的 渐进 因子 分 析 法 (EFA)、 固 定 尺 寸 移动 窗口 渐进 因子 
分 析 法 (FSMWEFA) 以 及 本 节 讨 论 的 直观 推导 式 演 进 特征 投影 法 (HELP) 与 前 一 节 中 讨 
论 的 用 主 成 分 分 析 法 直接 对 整个 矩阵 进行 体系 组 分 数 确 定 的 方法 〈 在 本 书 以 后 我 们 就 直接 称 
之 为 全 局 主 成 分 分 析 法 ) 的 最 大 不 同 之 点 就 在 于 它们 是 着 眼 于 局 部 的 信息 。 由 于 色谱 具有 分 
离 特 性 ， 所 以 ， 对 于 具有 一 定 特 性 的 联 用 色谱 的 二 维 数据 ， 一 般 说 来 ， 这些 渐 进 的 、 窗 口 的 
分 析 方 法 要 明显 优 于 那些 一 次 性 的 、 全 局 的 分 析 方 法 ， 而 使 得 一 些 具 有 特定 的 二 维 色 谱 数 据 
可 以 得 到 唯一 解 ， 为 黑色 分 析 体 系 的 精确 解析 提供 了 可 能 性 。 这 是 因为 这 些 渐进 的 、 窗 口 的 
分 析 方 法 很 充分 地 利用 了 色谱 的 分 离 特性 ， 将 一 个 较 复 杂 的 多 组 分 体系 首先 化 解 成 知 干 个 相 
对 简单 的 子 体系 ， 而 将 一 些 影响 分 辨 结果 的 重要 因素 ， 如 光谱 和 色谱 的 重 释 性、 组 分 之 间 自 
相对 浓度 比 、 噪 声 水 平 的 确定 等 降低 到 尽 可 能 的 低 水 平 。 当 然 ， 对 于 一 般 的 黑色 分 析 体 系 自 
唯一 精确 解 仍 是 化 学 计量 学 研究 的 一 个 热点 问题 ， 这 在 以 后 的 讨论 中 还 会 逐步 展开 。 

由 于 HELP 法 具有 从 原始 数据 的 背景 扣除 一 直到 色谱 重 受 峰 的 最 后 分 辨 的 所 有 解析 步 
又 ， 所 以 近年 来 得 到 了 广泛 应 用 ， 它 被 应 用 于 药物 纯度 的 直接 检验 、 光 化 学 研究 中 的 叶绿素 
a 的 降解 分 析 ![227] 、 红 外 光谱 分 辩解 析 [52284 、 复 杂 的 环境 分 析 中 空气 实际 样本 的 多 环 芳烃 的 
定性 定量 分 析 !2291 等， 取得 了 令 人 兴奋 的 成 果 ， 是 一 个 值得 重视 的 研究 新 领域 ， 以 下 我 们 将 
以 环境 分 析 中 空气 实际 样本 的 多 环 芳烃 的 定性 定量 分 析 为 例 来 对 HELP 方法 解析 的 全 过 程 
给 出 较 详细 的 说 明 ， 以 求 读者 对 HELP 方法 有 一 个 整体 印象 。 

(五 ) 应 用 实例 

多 环 芳烃 是 一 类 广泛 存在 于 人 类 环境 中 的 有 机 污染 物 的 统称 。 在 一 干 多 种 能 使 动物 致癌 
的 物质 中 ， 多 环 芳烃 占 三 分 之 一 以 上 ， 因 此 ， 对 多 环 芳 烃 的 研究 在 理论 和 实际 上 都 有 重要 意 
义 。 我 们 用 HELP 方法 进行 了 香港 城市 大 气 颗 粒 物 中 多 环 芳 烃 化 合 物 的 定性 定量 解析 ， 解 
析 结 果 说 明 ， 在 该 样本 中 存在 47 种 化 学 成 分 ， 其 中 有 18 种 为 多 环 芳烃 化 合 物 及 其 衍生 物 ， 
分 辨 结 果 与 毛细 管 气相 色谱 与 质谱 联 用 仪 所 得 结果 一 致 。 

图 6-87 分 别 示 出 了 该 空气 样本 在 234nm、260nm 和 310nm 上 测 得 的 色谱 图 。 从 图 可 以 
看 出 ， 每 个 图 中 都 只 有 不 足 20 个 色谱 峰 。 用 HPLC-DAD 所 带 的 常规 标准 光谱 库 搜索 发 现 ， 
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只 有 3 一 4 个 色谱 峰 位 置 的 光谱 与 标准 光谱 匹配 程度 较 高 ， 这 表明 样本 的 实际 组 成 可 能 很 复 
杂 ， 所 得 的 色谱 峰 可 能 大 多 为 未 完全 分 离 的 重 又 峰 。 用 HELP 方法 对 此 样本 的 解析 结果 示 
于 图 6-88， 发 现 此 样本 确实 含有 47 种 化 学 成 分 ， 其 中 有 18 种 为 多 环 芳 烃 化 合 物 及 其 衍生 物 
(参见 图 6-88 中 由 数字 表 出 的 色谱 峰 )。 下 面 我 们 仅 以 保留 时 间 分 别 为 20. 47 一 24. 33min 和 
12. 00—16. 00min 的 两 段 峰 簇 为 例 来 说 明 样 本 的 解析 全 过 程 [参见 图 6-87 Ca) 中标 出 半 
分 ]。 
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香港 城市 空气 样本 在 234nm(a)、260nm(b) 及 310nm(c) 上 测 得 的 色谱 流出 曲线 
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香港 城市 空气 样本 的 解析 结果 [图 中 数字 表示 已 确认 的 多 环 芳烃 (PAH)] 


因 实 际 样本 的 量 测 一 般 都 存在 基线 漂移 ， 所 以 ， 在 进行 分 辨 以 前 ， 首 先 要 扣除 漂移 背 
景 。 对 保留 时 间 20. 47 — 24. 33min 所 示 的 峰 复 前 后 的 两 个 零 组 分 区 进行 局 部 主 成 分 分 析 所 
得 结果 示 于 图 6-89， 所 得 的 两 个 第 一 载荷 矢量 的 相合 系数 为 0.9943， 显 然 ， 体 系 存 在 背景 
漂移 ， 须 用 前 述 方法 进行 背景 扣除 。 需 指出 的 是 ， 以 后 对 该 样本 的 其 他 色谱 峰 都 是 采用 此 法 
来 预先 进行 背景 扣除 而 后 再 进行 分 辨 的 。 

背景 扣除 后 ， 进 一 步 就 要 确定 峰 复 中 组 分 数 和 选择 性 信息 。 建 议 采 用 特征 投影 图 和 特征 
结构 跟踪 分 析 (ETA) 两 种 技术 共同 来 确定 峰 复 中 的 组 分 数 和 选择 性 信息 ， 因 只 有 当 两 种 
技术 所 得 结果 相 一 致 时， 所 得 最 终 分 辩 结 果 才 可 靠 。 图 6-90 示 出 了 保留 时 间 20. 47 — 
24. 33min 区 域 的 峰 得 特征 结构 跟踪 分 析 所 得 的 秩 图 (ETA 图 ) 。 从 图 可 以 看 出 ， 此 峰 复 为 
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保留 时 间 20. 47~24. 33min 的 峰 簇 的 背景 扣除 过 程 图 
(a) WERTE 230nm 的 色谱 流出 曲线 〈 阴 影 部 分 表示 零 组 分 区 ); 
Cb) 对 峰 秘 两 端的 零 组 分 区 进行 局 部 主 成 分 分 析 所 得 的 前 两 个 载荷 矢量 

+: 第 一 个 载荷 矢量 ， 一 : 第 二 个 载荷 矢量 
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Ca) 保留 时 间 20. 47—24. 33min ECRIRE E 230nm 的 色谱 流出 曲线 〈 图 中 阴影 部 分 表示 选择 性 区 域 ) ; 








(bo 峰 复 的 特征 结构 跟踪 分 析 所 得 的 秩 图 (ETA 图 ) 
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一 五 组 分 体系 ， 且 五 个 组 分 都 存在 选择 性 区 域 。 从 各 个 选择 性 区 域 中 可 容易 地 获得 各 组 分 的 
纯 物 种 光谱 ， 即 对 各 选择 性 区 域 作 局 部 主 成 分 分 析 ， 取 其 第 一 个 载荷 矢量 。 因 为 已 经 取得 所 
有 组 分 的 纯 物 种 光谱 ， 所 以 直接 用 最 小 二 乘 方 法 即 可 得 它们 的 相应 纯 组 分 色谱 。 图 6-91 示 
出 了 该 峰 簇 的 分 辨 结果 ， 经 与 PAH 的 标准 光谱 比较 可 知 ， 体 系 中 的 组 分 1、3、4、5 分 别 
为 环 成 二 烯 并 茶 、 荐 、 葵 并 [a] 是 、 花 的 衍生 物 ， 解 析 所 得 光谱 与 标准 光谱 吻合 很 好 。 
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与 上 例 相 比 ， 对 保留 时 间 12. 00—16. 00min 区 域 所 包括 的 峰 复 的 定性 分 辩 就 较为 困难 。 
首先 就 是 该 峰 簇 的 组 分 数 难于 确定 。 表 6-24 和 图 6-92 分 别 示 出 了 对 该 峰 艇 进行 主 成 分 分 析 
所 得 的 特征 值 和 特征 向 量 的 结果 。 从 表 6-24 看 来 ， 似 乎 该 体系 为 一 四 组 分 体系 ， 因 从 第 五 
个 特征 值 以 后 变化 就 很 小 了 ; 而 从 特征 向 量 的 结果 (图 6-92) 看 来 ， 似 乎 该 体系 又 是 一 个 五 
组 分 体系 ， 因 第 6 个 特征 向 量 就 很 像 噪声 的 形状 了 。 但 实际 上 该 峰 复 是 一 个 七 组 分 体系 ! 图 
6-93 给 出 了 它 的 ETA 图 和 特征 投影 网 ， 两 个 图 都 指出 该 峰 复 存在 有 5 个 选择 性 区 域 ， 即 图 
6-93 (a) 所 示 的 A、B、C、F 和 G 区 , 与 其 相对 应 ， 图 693 b) 给 出 了 它们 在 特征 投影 
图 的 直线 段 {图 中 标 出 的 a、b、c、d [对 应 于 图 6-93 (0 中 的 FE]、e [对 应 于 图 6-93 (a) 
中 的 G] }， 而 且 这 些 直 线段 经 延长 都 通过 原点 。 注 意 到 图 6-93 (a) 中 的 D 和 下 所 指示 的 
两 组 分 重 秋 区， 说 明 该 峰 复 至 少 为 一 七 组 分 体系 ， 同 时 ， 从 图 6-93 (bo 给 出 的 演进 特征 投 
影 图 来 分 析 ， 从 c 段 到 d4 段 ， 投 影 曲 线 改变 方向 两 次 也 证 实 了 这 一 点 。 根 据 以 上 结果 ， 我 们 
可 以 初步 确定 该 峰 簇 至 少 存在 7 个 组 分 ， 有 ETA 图 得 到 的 各 组 分 选择 性 信息 和 它们 的 零 浓 
度 区 域 ， 采 用 前 述 的 满 秩 分 辨 技术 ， 可 先 将 这 5 个 具有 选择 性 信息 的 组 分 分 辨 出 来 ， 然 后 采 
用 组 分 剥离 技术 将 它们 在 此 峰 复 的 贡献 减 去 ， 继 续 对 剩余 部 分 进行 特征 结构 跟踪 分 析 。 对 剩 
余部 分 进行 特征 结构 跟踪 分 析 的 结果 示 于 图 6-94， 从 图 可 以 看 出 ， 所 剩 部 分 确 为 一 两 组 分 体 
系 。 该 峰 复 的 总 的 分 辩 结 果 示 于 图 6-95。 在 此 峰 复 的 7 个 组 分 中 ,第 2、3 组 分 分 别 为 荧 草 
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保留 时 间 12. 00~16. 00min 区 域 所 包括 峰 簇 的 解析 结果 
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TEE. $ 6 组 分 的 纯 光 谱 与 区 的 纯 光 谱 很 相似 ， 可 认为 是 世 的 衍生 物 。 为 验证 上 述 所 得 结 
果 ， 我 们 还 做 了 毛细 管 色谱 质谱 联 用 分 析 ， 从 其 总 离子 流 色谱 中 可 得 该 样本 有 四 十 几 个 峰 ， 
对 PAH 的 定性 分 析 结 果 也 与 用 HELP 方法 解析 所 得 结果 相 一致 ， 从 而 进一步 说 明了 HELP 
方法 的 可 靠 性 。 

未 知 复杂 样本 如 生物 样本 、 天 然 药 物 、 环 境 样本 等 的 分 析 在 生物 化 学 、 药 物化 学 、 环 境 
化 学 等 领域 有 着 极其 重要 的 地 位 ， 对 这 些 样本 的 直接 快速 的 定性 定量 分 析 可 以 说 是 当前 分 析 
化 学 的 热点 和 难点 ， 从 上 例 看 来 ， 化 学 计量 学 近年 来 发 展 的 黑色 分 析 体系 的 解析 方法 ， 其 中 
特别 是 HELP 方 法 为 这 些 未 知 复杂 样本 的 直接 快速 分 析 提 供 了 一 个 革新 的 途径 ， 是 一 类 极 
有 发 展 前 途 的 分 析 方 法 ， 本 书 将 它们 介绍 出 来 ， 希 望 引起 广大 分 析 工 作者 的 重视 。 

(六 ) 正 交 投影 分 辨 法 

【基本 思路 】 

正 交 投影 分 辨 算法 (COPR) 是 基于 Lorber 提出 的 正 交 投影 [20 的 基本 思路 而 提出 ， 在 
结构 上 与 Malinowski 提出 的 窗口 因子 分 析 法 (WFA) 类 似 ， 它 也 是 利用 已 知 的 体系 中 含 
n —1 个 物种 的 窗口 来 对 第 ”个 物种 进行 正 交 投影 以 求 得 其 色谱 流出 信息 。 最 简单 的 例子 是 
在 小 色谱 峰 完全 被 大 色谱 峰 履 盖 的 情况 中 ， 利 用 已 经 知道 的 大 色谱 峰 相对 应 的 纯 物 种 光谱 来 
求 得 小 色谱 峰 的 形状 [2 。 实 际 上 ， 这 一 算法 可 容易 地 拓 广 至 一 般 色 谱 重 释 情 况 的 分 辨 ， 对 
于 最 常见 的 三 组 分 体系 分 辨 的 基本 思路 图 示 于 图 6-96， 在 以 后 我 们 还 可 以 看 到 ， 正 交 投 影 
术 还 可 用 于 来 诊断 不 同 的 色谱 重 橙 模式 ， 从 这 一 角度 来 说 ， 它 明显 优 于 EFA, TF 
对 正 交 投 影 分 辨 算法 给 出 介绍 。 

【基本 算法 】 

正 交 投影 分 辨 算法 就 由 以 下 几 个 步骤 构成 。 

CD 利用 秩 图 来 定义 体系 中 不 同 的 含 (2 一 1) 个 物种 的 窗口 (参见 图 6-96). 

© 对 已 定义 的 (n 一 1) 个 物种 的 窗口 所 对 应 的 子 矩 阵 进行 主 成 分 分 解 ， 以 得 到 (n 一 1) 
个 标准 化 的 且 相 互 正 交 的 载荷 矢量 〈 或 称 为 抽象 光谱 ) 。 

C 构成 由 这 (n 一 1) 个 载荷 矢量 组 成 的 投影 矩阵 M, 






































































































































M, = ‘I —P Np) 


AP, M} k=1, 2, =, n) 为 对 第 & 个 组 分 求 其 浓度 分 布 (或 色谱 ) 的 投影 矩阵 ; 
Pr 了 ?二 pwx，p2k，…，pa- 4 则 表示 由 对 已 定义 的 不 包括 第 & 物种 的 (n 一 1) 个 物种 的 
窗口 所 对 应 的 子 和 矩阵 进行 主 成 分 分 解 而 得 到 的 (n 一 1) 个 标准 正 交 的 载荷 矢量 ; I 为 一 相应 
大 小 的 单位 矩阵 。 

@ 对 于 不 同 的 组 分 ， 用 不 同 的 投影 矩阵 MA G1. 2. c. n) 对 混合 物 量 测 和 矩阵 X 
的 每 一 条 光谱 矢量 进行 投影 运算 


























X oexM,e0md v Jq48;4 0, 9 A PPTP PET) 
= (csk) Mp = Ces £O; (6-171) 
AP, FJ 表示 混合 物 量 测 矩阵 X 的 第 7 条 光谱 ， 关 于 上 式 的 证 明 我 们 将 放 在 本 节 的 最 后 。 


O 因为 光谱 矢量 x; 经 投影 运算 之 后 得 到 的 x; 是 只 剩 下 cx 和 sx WE, DMA, WRX 
式 (6-171) 两 边 同 时 进行 取 模 和 运算， 立即 可 得 
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lx; | = d Cesko; I 
即 
| xz | = ce | GA G=, …, m) 


在 此 ，m 为 光谱 的 波长 点 数 。 式 左边 的 xy WEM, TAA Ce; | Gzo* IL WERN 
要 求 的 。 需 指出 的 是 ， 对 于 上 (en); GzO* IL 中 的 ‖ iO; RIMET FR RERA 
于 不 同 的 光谱 矢量 xy 中 的 sx 是 同一 的 ， 故 s# 也 是 同一 的 。 

如 果 将 m ACTI xz | G 一 1,…,m) 收 集 起 来 成 为 一 个 矢量 ， 则 得 到 矢量 (|x? Dunn 
| xy 中) ,再 根据 式 (6-171) ,有 











CI xi | jt |l LN | ) 


— [Gi | GZot ls Cor) | Go, |] 


sd | € ji | [Cepit (C4) 





即 要 求 的 第 & 组 分 的 浓度 分 布 乘 上 一 个 常数 ‖ (sx )i | 上， 因为 sx 是 未 知 的 ， 所 以 这 个 常数 
Csx )1 趾 亦 为 未 知 。 因 此 ， 上 式 得 到 的 浓度 分 布 并 不 是 实际 的 第 组 分 的 浓度 分 布 ， 而 是 
它 与 一 未 知 常数 的 乘积 

@ 重复 第 加 步 和 第 由 步 ， 求 得 每 个 物种 的 浓度 分 布 模式 ， 即 可 用 最 小 二 乘 技术 算出 纯 
物种 的 光谱 来 ， 即 











S' —(C'C) !C'X 





在 此 C 和 矩阵 虽 不 是 实际 的 浓度 分 布 ， 但 并 不 影响 纯 光 谱 和 矩阵 St 的 求 得 ， 因 这 样 求 得 的 St 只 
是 在 大 小 上 与 实际 的 S' 不 同 ， 只 需 将 它们 进行 标准 化 处 理 就 行 了 。 

以 上 讨论 的 用 正 交 投影 方法 来 进行 黑色 分 析 体 系 解析 的 过 程 基 本 与 Malinowski 提出 的 
窗口 因子 分 析 法 类 似 ， 整 个 过 程 可 由 图 6-96 形象 地 表示 出 。 

式 (6-171) 的 证 明 (在 此 只 给 出 & 等 于 n 时 的 情况 ， 其 余 可 类 推 ): 

d XC 了 为 一 只 含 (nm 一 1) HPH TERE, XOD EES A (Moore-Penrose 
逆 )， 根 据 广义 逆 的 性 质 (参见 第 十 四 章 )， 有 




















w 








X QG-D X G-Dt Xx i-D —Xo-D 
如 果 写 成 矢量 形式 ， 则 有 
x, Dt (1i-D X G-D —x;07Dt 


XB. x P! J95Bpe X07? RHE 2131. 
据 此 可 以 构造 一 个 正 交 投影 矩阵 





M 一 [LT — xa) ! Xo-)] 


上 和 式 所 示 的 正 交 投影 矩阵 实际 上 就 是 前 述 所 示 的 正 交 投影 矩阵 。 对 和 矩阵 XC D 进行 主 成 分 
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正 交 投影 算法 分 辨 常见 三 组 分 重要 体系 的 示意 图 























先 采用 特征 结构 跟踪 分 析 法 ETA 得 到 体系 的 化 学 秩 图 ， 继 找到 一 个 2 组 分 区 域 
六 构成 正 交 投影 矩阵 ， 以 得 到 相应 未 包括 在 内 组 分 的 纯色 谱 














Ca) 以 第 一 和 第 二 组 分 信息 构成 正 交 投影 矩阵 ， 求 得 第 三 个 组 分 的 纯色 谱 ; 
(b) 以 第 二 和 第 三 组 分 信息 构成 正 交 投影 矩阵 ， 求 得 第 一 个 组 分 的 纯色 谱 ; 
(c) 以 第 一 和 第 三 组 分 信息 构成 正 交 投影 矩阵 ， 求 得 第 二 个 组 分 的 纯色 谱 












































分 解 ， 可 得 
XOD =U" DG Pm Dt 


AP, U 为 一 列 正 交 和 矩阵， 即 所 谓 得 分 矩阵 ; G 为 一 对 角 和 矩阵 ， 收 集 了 X 和 矩阵 的 非 噪声 特 
征 值 ， 如 与 本 章 第 一 节 所 说 的 特征 值 对 应 的 话 ， 是 X 矩阵 的 协 方差 阵 所 得 特征 值 的 平方 根 ; 
P' 为 一 行 正 交 撼 阵 ， 即 所 谓 载荷 矩阵 ， 对 上 式 求 广义 道 ， 则 可 得 




















(XD 3 —(U DG D p» Dt) 1 —po D (GG D) Ip Dt 


Jh Bl 





(XG-D)yt Xo-D =P” D (GG D) 1U Diy D (Gn Dp Dt 


e POTY p»: 





xO Ut 可 表示 为 (2 一 1) 个 纯 组 分 光谱 st G—1. 2. =, 7 一 1) 的 线性 组 合 。 即 


xD = (egs He HCS); 





而 对 于 一 个 含 ”个 物种 的 量 测 矩 阵 X， 它 的 每 一 行 x; 可 表示 为 n 个 纯 组 分 光谱 s; G — 1. 
2，…，7) 的 线性 组 合 ， 即 


x! 一 (cl181 引 F Casni A epsa) 


= (n—1) É 
一 (Xi T 6,54); 
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所 以 式 (6-171) 可 表示 为 


* t 5 e 
x; —x;'M — (esi Tee assa es UE p D p-Dt) 
—PCP des,)5 (E — POTD POD) 
zz E — y tt Dtpiaci pits 十 (Cnsn 0 (I — Pr PDt) 


egi Dt — x PTD oD 十 (x G-Dyc Xo-D 十 (Cs, )j (I — PD pod) 


—x,00Dt — X; G—1Dt 十 (CC Sn ) ; gi — POTD Pod) 


=(c,sn);M= (cs» )) 


在 此 只 需 把 下 标 n SES b 就 变 成 式 〈6-171)， 证 毕 。 

在 此 值得 提出 的 是 ， 实 际 上 我 们 还 可 以 证 明 本 节 介 绍 正 交 投影 分 辨 法 与 Malinowski 提 
出 的 窗口 因子 分 析 法 是 同一 的 ， 有 兴趣 的 读者 可 参阅 文献 [233]. 

(七 ) 子 窗口 因子 分 析 法 

【基本 思路 】 

前 述 分 辨 方法， 如 渐 近 因子 分 析 法 、 窗 口 因 子 分 析 法 及 正 交 投影 分 辨 法 ， 都 是 以 分 辩 纯 
组 分 色谱 为 其 目标 ， 而 在 此 介绍 的 子 窗口 因子 分 析 法 却 是 以 分 辨 纯 组 分 光谱 为 其 目标 。 该 法 
由 Manne 等 提出 5239 ， 其 主要 思路 是 利用 在 色谱 方向 上 不 同 子 窗 口 所 含有 一 个 且 只 含有 
个 相同 纯 物 质 光谱 的 特性 ， 从 而 将 该 纯 物 质 光谱 分 辨 出 来 。 这 样 的 子 窗口 可 由 图 6-97 简要 
示 出 。 






























































End 
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保留 时 间 一 > 
色谱 方向 的 子 窗口 示意 图 
共同 组 分 为 中 间 的 流出 的 组 分 ，L: 中 间 组 分 的 左 窗口 ，R， 中 间 组 分 的 右 


























【基本 算法 】 

子 窗口 因子 分 析 算法 可 由 以 下 几 个 步骤 构成 : 

CD 利用 秩 图 来 定义 体系 中 不 同 的 含有 一 个 且 只 含有 一 个 相同 纯 物 质 的 两 个 不 同 子 窗口 
(参见 图 6-97) 。 

O 对 已 定义 的 两 个 子 窗口 所 对 应 的 子 和 矩阵 分 别 进行 主 成 分 分 解 ， 以 得 到 两 组 标准 正 交 
E= (ei, ess cc» €m) 和 了 = {di, ds,，…，d,},， 其 中 和 nn 分 别 表示 两 个 子 窗口 
所 对 应 的 子 矩 阵 的 组 分 数 。 设 该 同时 含 于 两 个 子 矩 阵 的 纯 光 谱 为 s， 因 可 被 两 组 正 交 基 同 时 
线性 表示 ， 则 有 
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EZ 分 析 化 学 


式 中 ， a; =T, 2, 





FH 10 化 学 计量 学 


= Ea = Df 





rag m) fll B; Cj —1. 2, t, n) 分 别 为 线性 组 合 系数 。 而 且 ， 有 


a=E's, B=D's 


© 构建 一 个 目标 函数 N, E E'E-—I,; D'D-—I,. 有 


N 


其 中 fi-—a' E'Dp. 
QD X EXBS Hb EEG U. KREKT f£i— e E DBSKIR KK. HA 


= | Ea — DB ||? -a'E'Ea + B:D'Dp —2a'E' Df 
—2— 2a'E' Dp 
—2—2fi 








a —E's —E'Dp —E'DD's —E'DD'Ea 











p —D's —D'Ea —D'EE's —D'EE'Dfp 


FA, a. B 分 别 为 E'DD'E RI D'EE'D 的 特征 值 为 1 的 特征 向 量 (参见 第 十 四 章 )。 同 时 





g —Ea —Dp 





即 无 论 是 求 得 a m B. Wa Eh AA E FAEERE s 来 。 

O 只 要 没有 含 大 峰 包 小 峰 的 情况 ， 就 可 为 任 一 组 分 找到 相应 的 两 个 子 窗口 ， 而 依次 得 
到 其 纯 光 谱 s; G—1. 2, ce. AD. 在 此 A 为 体系 组 分 数 。 求 得 所 有 的 纯 组 分 的 光谱 即 用 
下 式 可 求 得 各 组 分 的 纯色 谱 来 


【讨论 】 








C —XS(S'S)^! 





因 本 法 与 前 述 分 辩 方 法 不 同 的 地 方 在 于 它 不 是 求 纯 组 分 的 色谱 而 以 求 组 分 物质 的 纯 光 谱 
为 目标 ， 所 以 ， 可 为 联 用 色谱 的 二 维 数据 的 解析 带 来 新 内 容 ， 将 此 法 与 前 述 的 正 交 投影 分 辩 
法 结合 起 来 ， 就 可 直接 同时 求 得 任意 感 兴趣 组 分 的 纯 光 谱 和 纯色 谱 ， 从 而 可 对 该 组 分 直接 进 
行 定 性 定量 分 析 ， 而 不 必 对 所 有 组 分 进行 全 部 分 辨 。 这样 的 情况 对 那些 含有 大 峰 包 小 峰 的 分 
析 体 系 特别 有 用 ， 因 对 那些 含有 大 峰 包 小 峰 的 分 析 体 系 目前 还 很 难 精确 求解 (参见 下 一 节 )， 
致使 不 可 能 求 得 所 有 纯 组 分 色谱 。 有 关 这 样 的 具体 例子 读者 可 参阅 文献 [235]。 另 外 ， 由 于 
该 同时 含 于 两 个 子 矩 阵 的 纯 光 谱 s 可 以 通过 两 种 途径 (s 一 Ee 或 一 DB) 而 求 得 ， 这 样 我 们 
可 以 对 这 两 个 所 得 结果 进行 比较 ， 如 这 两 个 结果 完全 一 样 ， 说 明 所 得 结果 可 靠 ， 反之 ， 如 所 
得 结果 相差 大 ， 则 说 
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月 结果 的 可 靠 性 不 高 ， 从 而 提供 了 一 个 检验 分 辨 结果 可 靠 性 的 工具 。 











全 色谱 的 





阶 微分 乱 阵 顺序 秩 分 析 方 法 

















【基本 思路 】 
在 色谱 数据 中 ， 经 常 出 现 小 色谱 峰 完 全 被 大 色谱 峰 覆 盖 的 情况 ， 由 于 缺乏 必要 的 信息 ， 
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一 般 说 来 ， 是 不 能 求 得 唯一 解 的 ， 除 非 可 以 找到 另外 一 些 特殊 条 件 。 对 于 一 般 二 维 色谱 数据 
分 辨 可 求 得 唯一 解 的 必要 条 件 ，Manne 给 出 了 较 详细 的 讨论 ， 有 兴趣 的 读者 可 参阅 文献 
L236]。 在 此 将 要 讨论 的 二 维 色谱 的 一 阶 微分 矩阵 顺序 秩 分 析 方 法 ， 关键 就 在 于 它 利 用 了 色 
谱 峰 局 部 对 称 的 约束 条 件 ， 引 入 微分 色谱 ， 才 使 得 小 色谱 峰 完全 被 大 色谱 峰 覆 盖 的 情况 有 可 
能 得 到 唯一 解 ， 对 于 色谱 峰 局 部 不 对 称 的 体系 ， 此 法 是 有 一 定 困难 的 。 

对 于 小 色谱 峰 完 全 被 大 色谱 峰 履 盖 的 二 维 色 谱 数据 ， 其 情况 大 致 不 外 由 图 6-98 所 示 的 
三 种 情况 ， 在 此 三 种 情况 中 ， 所 讨论 的 算法 只 适用 于 第 二 种 情况 [图 6-98 œ) ]， 即 小 峰 
的 极 大 点 与 大 峰 的 极 大 点 不 重合 ， 而 且 在 大 峰 的 极 大 点 处 ， 小 峰 还 未 完全 消失 。 在 此 三 种 情 
况 中 ， 第 一 种 情况 [图 6-98 (a) 」 因 大 小 峰 的 极 大 点 完全 重合 ， 故 本 法 不 适用 ; 而 对 于 第 
三 种 情况 [图 6-98 (o ]， 则 因 在 大 峰 的 极 大 点 处 ,小峰 已 完全 消失 ， 本 法 亦 不 适用 ， 当 
然 ， 当 在 大 峰 的 极 大 点 处 小 峰 还 未 出 现 的 情况 与 第 三 种 情况 类 似 ， 亦 不 可 采用 此 法 。 因 本 法 
的 基本 思路 就 是 要 利用 色谱 峰 有 且 只 有 一 个 极 大 点 和 在 对 极 大 点 进行 微分 时 其 值 为 零 的 


特点 。 


保留 时 间 
(a) 


p ctt 


保留 时 间 
(b) 


ZA C 


保留 时 间 
(c) 


大 色谱 峰 包 小 色谱 峰 的 三 种 不 同 模式 









































对 于 一 大 色谱 峰 包 小 色谱 峰 的 二 维 色谱 数据 矩阵 X， 根 据 朗 伯 - 比 耳 定 律 ， 可 写成 如 下 
ÉR: 





X =c;si Hesi HE 


式 中 ，c;G 王 1，2) 和 8%G 王 1，2) 分 别 表示 未 知 的 两 个 组 分 的 色谱 和 光谱 ; E 表示 量 测 
误差 。 这 样 的 二 维 色 谱 分 别 是 保留 时 间 GO 和 波长 (w) 的 函数 ， 所 以 ， 其 中 的 每 个 元 素 
zj; 都 可 写成 如 下 形式 : 




















zug. w) =c; Gs169) dT es Gosg (w) c eg 





即 每 个 元 素 都 是 保留 时 间 GO 和 波长 Cu 的 函数 ， 对 它们 可 以 从 两 个 方向 来 进行 微分 ， 
如 略 去 误差 项 ， 两 个 方向 的 微分 式 可 分 别 表示 为 


dz ;; (t, w)/dt —si(Gw)dc, G)/dt + s2 Gw) dca G2 /dt (6-172a) 
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dz; GG. w)/dw —c4G)dsi Cu) /dw + cz G)ds Cw /dw (6-172b) 
因为 二 维 色谱 数据 矩阵 的 每 一 行 就 是 一 个 光谱 ， 而 每 一 列 就 是 一 个 色谱 ， 所 以 也 可 以 将 
上 述 微分 式 写 成 矢量 形式 ， 即 


dx! (t, w)/dt =s] Cw)dc; G)/dt +s5Cw)dcs(t)/dt G =1, =+, n) (6-173a) 


dx; (t, w)/dw =c: (t)dsı Cw)/dw 4d-ezG)0dss CO /dw (j =1, =, m) 


(6-173b) 


在 此 ，{dx; G. w) /dt, Gi—1,. =, n) ) 表示 二 维 色 谱 数 据 对 时 间 方 向 的 微分 矩阵 dX / 
dt 的 每 一 行 ， 而 (dx; G, w) /dw. (jl, =, m) 》 则 表示 二 维 色 谱 数 据 对 波长 方向 
的 微分 矩阵 dX/dw 的 每 一 列 ， 此 外 ， 上 式 中 隐 含 了 一 个 十 分 重要 的 关系 ， 即 分 别 在 两 个 纯 
组 分 色谱 的 极 大 点 处 ， 也 就 是 说 dc (1) /dr—0 xk de; G) /dr—0 的 时 候 ， 可 以 很 容易 地 
分 别 得 到 两 个 物种 的 纯 光 谱 ， 亦 即 








dxi Œ, w)/dt —s5 Gw2dcs G)2/dt (6-174a) 


dx! (z, w)/dt =s} Cw)dcı G2 /dt (6-174b) 





同 理 ， 在 两 个 纯 组 分 光谱 的 极 大 点 处 ， 也 就 是 说 ds: (2) /dt—0 xk ds; (2) /dt 二 0 的 
时 候 ， 可 以 很 容易 地 分 别 得 到 两 个 物种 的 纯色 谱 ， 亦 即 





dx; (t, w)/dw | dsi (22/dw =0 =c; (t)dsz Cw) /dw (6-175a) 


dx; (t, w)/dw | ds2 (1)/dw=0=c1(t)dsi(w)/dw (6-175b) 





因为 本 法 的 基本 思路 就 是 要 利用 色谱 峰 有 且 只 有 一 个 极 大 点 的 特点 ， 所 以 在 以 后 的 讨论 
中 ， 我 们 将 只 讨论 对 时 间 方 向 的 微分 矩阵 dX/dt 的 情况 。 而 对 时 间 方 向 的 微分 矩阵 dX / dt 
的 每 一 行 仍 是 存在 于 体系 中 的 两 个 光谱 的 线性 组 合 [参见 式 6-173 ]， 这 样 ， 经 此 微分 以 
后 ， 此 矩阵 的 秩 仍 是 等 于 2， 而 且 它 的 线性 关系 仍然 是 保持 不 变 的 ， 当 然 ， 式 中 的 系数 不 再 
是 非 负 的 了 。 男 外 ， 再 根据 式 (6-174)， 只 要 找到 了 两 个 纯 组 分 的 极 大 点 ,就 可 以 得 到 两 个 
纯 物 种 的 光谱 。 现 在 的 问题 是 怎样 才能 找到 这 两 点 的 位 置 ， 确定 了 这 两 点 的 位 置 ， 就 等 于 找 
到 了 两 个 物种 的 纯 光 谱 ， 这 就 是 本 法 要 解决 的 关键 问题 。 

对 于 时 间 方 向 的 微分 矩阵 dX/dt， 在 某 一 个 纯 物 种 的 色谱 极 大 点 处 ， 即 tuu; GSL, 
2), A de; G) /dt 二 0。 不 失 一 般 性 ， 可 以 先 讨论 i 二 1 的 情况 ， 即 第 一 个 色谱 极 大 点 的 情 
况 ， 因 为 此 时 de1(1)/dt 二 0， 所 以 有 























dxiG, w)/dt | ,=Ldcs G2/dt ]s$ Cw) —fis$ Cu) (6-175c) 
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即 可 得 到 第 二 组 分 的 纯 光 谱 ， 如 果 在 第 一 组 分 色谱 极 大 点 的 附近 色谱 峰 是 近似 对 称 的 ， 则 有 





dc , 42 /dz Iss. 1 — — de, G)/dt |: maxi, 1 (6-176) 











利用 上 式 所 提供 的 条 件 ， 如 果 将 微分 和 矩阵 dX/dzi 在 第 一 组 分 色谱 极 大 点 的 前 一 点 和 后 
一 点 的 两 个 光谱 相 加 ， 可 以 得 到 








dxi (t, w)/dt |imax 1, 1 Hdx}, w)/dt liqua. 1 

= (si Gw de, )/dt +s} Cw)dez G)/dt) |i maxi, 1 + 
(Cw) de, G) /dt + Cw)dcs(t)/dt} |i mast. 1 

=[dc; (t)/dt [i maxi, 1 dei ()/dt lis, 1 Jsi + 
des G2 d£ lemar 1 des (27 de enag 31.183 

— [des Q4)/dt |i maxi, 1 Hdez (2/dt [isi i 1s? 


— u$ 5 (6-177) 


在 此 利用 了 式 (6-176) 所 提供 的 在 第 一 组 分 色谱 极 大 点 的 附近 色谱 峰 是 近似 对 称 的 条 
件 。 如 果 将 由 式 (6-175) 和 式 (6-177) 所 得 的 两 个 光谱 组 成 一 个 子 和 矩阵 ， 亦 即 [Bs5， 
pg， 则 此 子 和 矩阵 的 秩 为 1。 

【基本 算法 】 

根据 以 上 讨论 的 这 些 结果 ， 可 以 很 容易 地 构造 一 个 算法 来 确定 二 维 微分 色谱 (对 时 间 方 
向 的 ) 中 两 个 纯 组 分 的 色谱 极 大 点 的 位 置 。 该 算法 可 由 以 下 几 个 步骤 来 完成 : 

CD 在 对 于 时 间 方向 的 微分 矩阵 4X/d 中 选择 第 一 个 行 矢量 ， 即 dx! /di; 

@ 第 二 个 行 矢量 就 将 该 矢量 的 前 一 个 和 后 一 个 行 矢量 ， 即 dxf ,/dt 和 dxi41/dt， 相 
加 而 成 ; 

@ 将 这 两 个 行 矢 量 组 成 一 个 矩阵， 并 对 它 进 行 主 成 分 分 析 以 得 到 两 个 特征 值 ; 

D 从 微分 矩阵 dX /dt 第 二 个 行 矢量 开始 ， 不 断 地 重复 上 述 @ 一 四 步 ， 一 直到 该 微分 矩 
阵 dX/dt 的 倒数 第 二 个 行 撩 量 ,， 这样， 就 可 以 得 到 一 系列 的 特征 值 ; 

O 将 由 此 得 到 的 一 系列 特征 值 对 保留 时 间 方 向 作 图 ， 在 图 上 找到 的 第 二 个 特征 值 曲线 
中 出 现 的 两 个 最 小 点 的 位 置 ， 也 就 是 两 个 纯 组 分 色谱 的 极 大 点 的 位 置 ， 这 两 点 所 代表 的 微分 
和 矩阵 dX/dt 的 行 矢 量 ， 也 就 是 两 个 物种 的 纯 光 谱 。 

【讨论 了】 

此 算法 的 构成 基本 思路 和 期 望 所 得 到 的 结果 形象 地 示 于 图 6-99。 如 果 在 纯色 谱 峰 的 附 
近 的 确 是 对 称 的 ， 则 此 法 可 以 得 到 很 理想 的 结果 如 图 6-100 所 示 。 图 6-100 示 出 的 是 一 个 用 
对 称 的 高 斯 峰 来 模拟 色谱 峰 的 二 组 分 体系 的 结果 。 另 外 ， 因 此 法 只 适用 于 图 6-98 所 示 三 种 
情况 的 第 二 种 ， 所 以 ,在 进行 分 辨 之 前 ， 似 有 必要 先 确定 我 们 碰 到 的 情况 是 否 的确 属 于 图 
6-98 所 示 的 第 二 种 情况 。 对 于 这 三 种 情况 的 判别 ， 可 采用 特征 投影 图 ， 对 于 上 述 的 三 种 不 
同情 况 ， 它 们 的 特征 投影 图 示 于 图 6-101。 从 图 可 以 看 出 ， 对 于 这 三 种 情况 ， 它 们 的 特征 投 
影 图 都 不 同 ， 而 且 各 具 特 色 ， 很 容易 区 别 。 
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保留 时 间 


al T = vica 一 阶 微分 矩阵 顺序 秩 
分 析 方法 原理 示意 图 
对 原始 二 维 色谱 量 测 和 矩阵 微 分 后 ， 在 古 
色谱 极 大 值 处 可 得 该 两 个 组 分 的 纯 物质 光 
CaP so); 继 用 顺序 秩 分 析 方法 可 对 该 微分 


阵 进 行 分 析 ， 可 得 图 下 部 的 秩 分 析 结 果 。 民 
的 两 个 极 小 点 即 为 两 个 纯 物 质 光 谱 的 所 在 点 
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一 个 大 峰 包 小 峰 模拟 体系 的 顺序 秩 分 析 结果 图 





Ca) 为 秩 分 析 图 ， 图 中 可 见 三 个 极 小 点 (1，2，3)， 其 中 第 2、 





两 个 纯 物 质 光谱 所 在 位 置 ， 根 据 此 两 点 所 得 的 纯 光 谱 与 真实 纪 
… 表 示 估 计 光 谱 ， 一 表示 实际 纯 组 分 光谱 ; 从 图 可 以 看 








30 
波长 /nm 
(c) 


第 3 点 处 的 秩 等 于 1， 应 为 相对 应 的 





光谱 的 比较 示 于 图 (bo 和 图 Co 

















,估计 值 与 实际 值 吻合 其 好 
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三 种 不 同 模式 的 大 峰 包 小 峰 情况 的 特征 投影 图 与 特征 结构 跟踪 分 析 (ETA) 结果 
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然而 ， 在 很 多 情况 下 ， 在 纯色 谱 峰 附近 的 对 称 这 一 点 前 提 很 难 满足 ， 这 就 使 该 法 的 适用 
性 受到 很 大 限制 。 对 此 ， 该 法 是 否 有 相应 的 解决 办 法 呢 ? 这 是 我 们 将 要 继续 讨论 的 一 点 。 

因为 一 般 的 色谱 峰 都 不 同 程度 地 存在 着 拖 尾 情况 ， 当 拖 尾 情况 存在 时 ， 纯 色谱 峰 附 近 的 
对 称 这 一 点 前 提 就 很 难保 证 ， 在 此 ， 我 们 用 两 个 对 称 的 高 斯 峰 来 组 成 一 个 色谱 峰 ， 使 模拟 体 
系 的 色谱 具有 拖 尾 现象 。 这 样 组 成 的 两 个 大 峰 包 小 峰 的 二 组 分 模拟 体系 示 于 表 6-25。 对 于 
由 这 样 具有 拖 尾 色谱 体系 用 顺序 秩 分 析 方 法 所 得 结果 示 于 图 6-102。 从 图 可 以 看 出 ， 我 们 得 
到 的 不 是 两 个 ， 而 是 3 个 或 者 4 个 极 小 点 ， 而 且 这 些 极 小 点 都 还 没有 达到 噪声 水 平 ， 这 时 ， 
我 们 应 该 用 什么 方法 来 确定 两 个 纯色 谱 峰 的 极 大 点 呢 ? 

对 于 这 样 的 情况 ， 可 以 借助 特征 投影 图 来 帮助 决定 两 个 纯色 谱 峰 的 极 大 点 。 从 本 章 第 一 
节 的 讨论 可 知 ， 如 果 将 一 两 组 分 的 混合 体系 的 光谱 都 标准 化 成 具有 总 和 丝 等 于 某 一 常数 的 光 
WE. 它们 在 主 成 分 投影 图 的 投影 点 就 为 一 条 直线 ,混合 物 光 谱 的 点 都 应 落 在 两 个 纯 物种 光谱 
的 投影 点 之 间 ， 这 样 就 可 以 利用 这 一 特点 来 决定 两 个 纯色 谱 峰 的 极 大 点 ， 因 如 果 在 顺序 秩 分 
析 方 法 所 得 的 几 个 最 小 点 为 纯 光 谱 ， 它 们 必须 会 将 处 于 直线 的 两 端 ， 反 之 ， 它 们 就 会 落 在 混 
合 物 的 光谱 之 中 。 基 于 这 一 推断 ， 我 们 可 以 这 样 来 构造 一 个 新 矩阵 ， 首 先 将 原始 矩阵 导 都 
标准 化 成 具有 总 和 为 一 常量 的 光谱 ， 然 后 将 由 顺序 秩 分 析 方法 所 得 的 几 个 最 小 点 也 同样 标准 
化 组 成 一 个 新 矩阵 ， 继 将 它们 进行 主 成 分 特征 投影 ， 如 果 所 得 的 几 个 最 小 点 中 有 一 个 是 处 在 
投影 图 的 端点 ， 而 其 他 几 个 在 中 间 ， 则 这 一 处 于 端点 的 就 可 能 是 最 靠近 纯 物 种 的 光谱 点 。 对 
de 6-25 的 两 个 模拟 例子 (图 6-102) 的 计算 结果 示 于 图 6-103， 它们 与 实际 纯 物 种 光谱 的 比 
较 示 于 图 6-104， 从 图 可 知 ， 这 样 所 得 的 结果 是 很 靠近 实际 结果 的 。 所 以 ， 采取 这 样 的 方法 
有 可 能 得 到 一 个 很 靠近 实际 的 近似 解 ， 不 失 为 一 个 补救 策略 ， 对 于 该 法 的 更 详细 讨论 可 参阅 
文献 L237]。 当 然 ， 继 续 研 究 如 何 得 到 在 色谱 峰 附 近 不 对 称 的 分 辨 算法 仍 是 具有 重要 意 
义 的 。 
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模拟 拖 尾 色谱 的 参数 

















大 高 斯 峰 小 高 斯 峰 

项 目 n "a n -ir 
峰 位 置 标准 差 峰 高 峰 位 置 标准 差 峰 高 
30 6. 44 1.0 40 7. 07 0.3 

大 色谱 峰 
30 6. 44 1:0 40 7.07 0.4 
25 3. 54 0 29 3. 87 0.1 

小 色谱 峰 
25 3. 54 0.5 29 3. 87 0.2 
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由 表 6-25 所 示 的 两 个 不 对 称 大 色谱 峰 包 小 色谱 峰 情 况 的 一 阶 微分 顺序 秩 分 析 结 果 图 
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由 图 6-102 所 对 应 的 主 成 分 投影 图 


Ca) 对 应 于 图 6-102 (a) 所 示 情 况 ; ( 





三 、 张 量 分 辨 方法 


b) 对 应 于 图 6-102 (b) 所 示 情 况 














正如 在 前 面 所 讨论 的 ， 对 于 黑色 分 析 体 系 的 解析 ， 要 获得 唯一 解 ， 需 要 三 维 ， 即 张 量 类 
型 的 数据 。 在 这 一 节 中 将 详细 讨论 张 量 分 辩 的 两 种 主要 方法 ， 通 过 对 这 两 种 方法 的 讨论 ， 我 

















们 将 可 以 更 清楚 地 看 到 ， 只 有 这 样 的 基于 张 量 类 型 数据 的 分 辨 方法 才能 在 任何 没有 附加 的 约 








束 条 件 下 ， 获 得 唯一 解 。 














在 此 值得 指出 的 是 ， 张 量 分 辨 方法 在 化 学 中 还 将 是 一 类 很 有 前 途 的 方法 ， 因 在 众多 的 分 





仪器 已 成 为 一 般 分 析 化 学 实验 室 中 的 常用 仪 





析 化 学 所 用 的 仪器 中 ， 如 在 前 一 方 中 讨 论 的 联 月 
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两 个 模拟 拖 尾 体系 


的 纯 光 谱 估 计 比 较 图 


光 估 计 光 谱 ; 一 实际 纯 组 分 光谱 ; 图 GO. CO 中 的 编号 2、3 与 图 6-103 (a) 中 表示 的 点 相对 应 ; 
图 (b)、(d) Co 中 的 编号 2、3、4 与 图 6-103 (b) 中 表示 的 点 相对 应 











器 ， 如 高 效 液 相 色 谱 与 二 极 管 阵列 检测 器 联 用 仪 





(HPLC-DAD)、 气 相 色 谱 与 质谱 联 用 仪 


(GC-MS)、 气 相 色 谱 与 红外 光谱 联 用 仪 (GC-IR)、 高 效 液 相 色 谱 与 质谱 联 用 仪 (OHPLC- 
MS) 、 质 谱 与 质谱 联 用 仪 “MS-MS)、 闯 光 发 射 光 谱 与 激发 光谱 仪 (EX-EM) 等 ， 而 且 这 种 
联 用 的 趋势 还 在 不 断 扩大 ，Hirschfeld 为 此 列 出 了 一 个 可 能 被 联 用 的 分 析 仪 器 的 一 览 








XU, ， 据 Hirschfeld 所 列表 来 估计 ， 在 这 些 





联 用 仪 中 ， 大 约 60% 可 产生 双 线 性 数据 ， 


可 以 相信 ， 这 种 联 用 趋势 还 将 不 断 扩大 。 注 意 到 将 几 个 不 同样 本 所 测 得 的 双 线 性 数据 合 在 一 





块 就 成 了 三 线性 的 数据 ， 所 以 ， 本 章 将 要 讨论 的 引 


K 量 分 辩 方 法 将 会 成 为 很 有 用 的 分 析 方 法 。 


其 实 ， 现 在 就 已 经 存在 一 些 可 产生 三 维 数据 的 分 析 仪 占 ， 如 三 维 核 磁 共 振 仪 、 相 分 辨 冯 光 光 
谱 仪 (phase-resolved fluorescene spectroscopy，PRFS)， 本 身 就 可 以 产生 三 维 数据 。 从 这 
一 角度 考虑 ， 本 节 所 要 介绍 的 方法 可 能 很 快 就 将 成 为 分 析 化 学 的 常用 方法 。 





在 详细 讨论 张 量 分 辨 方法 之 前 ， 先 一 般 化 地 讨论 一 下 张 量 分 辨 的 数学 模型 。 以 下 将 采用 




















表示 ， 


黑 花 体 来 表示 三 维 张 量 ， 如 必 、 费 、 中 等 ,对 于 一 个 三 线性 的 量 测 张 量 ,， 一 般 可 用 下 式 





E 分 析 化 学 手册 “10” 化 学 计量 学 





S£- x &) y CO z FE (6-178) 


式 中 ， 凶 表示 矢量 间 的 外 积 ， 即 zy 一 xy'; 五 表示 与 量 测 张 量 好 相对 应 的 量 测 误差 
张 量 




















《一 ) 投影 旋转 因子 分 析 法 
【基本 思路 】 
投影 旋转 因子 分 析 法 (PRFA) 是 由 Burdick 等 针对 相 分 辩 荧 光 光 谱 仪 (PRFS) 所 产生 
的 三 维 数据 的 解析 而 提出 的 [2 。 其 主要 思路 仍 是 基于 因子 分 析 法 ， 不 同 的 是 它 巧妙 地 利用 
了 张 量 数据 的 性 质 来 进行 投影 旋转 ， 而 获得 有 物理 意义 的 唯一 解 。 下 面 我 们 将 对 此 法 进行 详 
细 的 介绍 。 

由 相 分 辨 荧光 光谱 仪 (PRFS) 所 产生 的 数据 可 用 下 式 表示 : 




















M, — *x,yidi, ; — XD; Y: (6-179) 


XB. M , 为 在 频率 f FPEO; x, Myrk —1. 2. t n) 分 别 表示 第 k 
物种 的 获 光 激发 光谱 和 发 射 光 谱 矢 量 ; da. y —ascos[tan ! (ws74) ]cosL óp — tanCes742] ; 
ak 为 一 依赖 于 荧光 物质 浓度 、 菊 光量 子 效率 、 分 子 摩尔 吸光 系数 及 仪器 因素 的 常数 ;rzrx 是 
"Bk 物种 的 荧光 寿命 ，#$p 为 检测 器 的 相 角 ; X= [xis xo» c xad; Y= [yis y2; 0s 
ya]: Dy 为 一 对 角 和 矩阵 ， 它 的 第 个 对 角 元 素 即 为 di,/。 相 分 辨 将 光 光 谱 仪 就 是 通过 调节 
不 同 的 频率 来 得 到 具有 不 同 频率 的 二 维 荧 光 光 谱 ， 以 构成 一 个 三 维 数据 阵 


G— ix, C9 ys C9 zg 
IWP, ze =Ldrasdr steders]; 了 为 不 同 频率 的 数 日 。 这 样 的 三 维 数据 还 可 表达 成 





























Gijy = D GG uds, f 


RP, Cx): RRR xe 中 的 第 i 个 元 素 ; Or) 表示 荧光 发 射 光 谱 ys 中 的 第 j 个 
元 素 。 注 意 到 在 此 ;=1，2，…, 工 ， 即 工 个 激发 波长 点 ; j—1. 2, c. M. WM 个 发 射 
波长 点 ; f= 二 1，2…， 下 ， 即 下 个 不 同调 制 频率 ， 所 以 G 是 一 个 ( 工 XMXF) 的 三 维 数 
据 阵 。 

黑色 分 析 体 系 的 分 辨 算法 的 目的 就 在 于 直接 从 量 测 三 维 数据 G 出 发 ， 分辨 出 纯 组 分 的 
严 光 激发 光谱 xz R51, 2, s n), KIER IER ys (E —1, 2, c. n) 以 及 与 组 分 浓度 
有 关 的 dep k=l, 2, 0, n) 来 。 投 影 旋转 因子 分 析 法 (PRFA) 的 解析 思路 是 首先 通过 
多 维 尺 度 分 析 的 TUCKALS2 方法 52404 求 得 不 同 My 的 共同 列 矢量 空间 U 及 其 共同 行 矢 量 空 
间 V+， 然 后 通过 适当 的 投影 和 旋转 技术 ， 即 可 得 到 分 辨 的 唯一 解 。 以 下 将 对 其 投影 旋转 过 
程 给 出 详细 介绍 。 

【基本 算法 】 

投影 旋转 因子 分 析 法 解析 的 基本 过 程 可 由 下 述 几 步 构成 。 

CD 投影 运算 过 程 ”用 共同 行 矢量 空间 U 和 共同 列 矢 量 空间 V. 对 不 同 My 进行 投 


影 ， 即 


















































M; =UU TU'M; VV VV 
—UC,V' (6-180) 
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从 上 式 可 以 看 出 Cy 是 一 个 (n Xn) 阶 的 方 阵 。 

(2) 旋转 分 辨 过 程 ”因为 U 和 矩阵 的 列 向 量 与 X 矩阵 的 列 向 量 张 成 同一 线性 空间 ， 且 Vt 
矩阵 的 行 向 量 与 Y' 矩阵 的 行 向 量 张 成 同一 线性 空间 ， 所 以 ,我 们 总 可 以 找到 两 个 OD 
阶 的 满 秩 方 阵 P 了 和 0Q， 使 得 











X —UP fll Y =VQ (6-181) 
将 式 (6-181) 代入 式 (6-179, 得 

M; =UPD ;Q'V: 
继 与 式 (6-180) 比较 ， 即 M ;—UC,;V'—UPD yjQ'V'+， 所 以 有 


C; —PD;Q' 





对 上 式 的 两 边 分 别 左 乘 Po Aude (QUO ， 立 即 可 得 


D, —PC, (Q7 





一 般 说 来 , P 与 8 可 通过 对 C; 或 通过 对 C 的 正 交 分 解 来 得 到 ， 即 











P^C;C;j!P —D;Dj! (6-182a) 


Q'C;'C;(Q) ! —D;'Dj (6-182b) 


D;D;! —P-C;(QD![P^C;(Q)7]7 


=P C; (Q) Q'P—P^C,C; P (6-183) 


这 就 是 式 (6-182a)， 同 理 , 式 (6-182b) 亦 可 依 此 推出 。 得 到 D; !D; X DiD; jA, Hi 
利用 进行 正 交 分 解 时 得 到 的 P 与 8 根据 式 (6-181) 即 可 求 出 荧光 激发 光谱 X 或 荧光 发 射 
光谱 Y 了 来 。 

(3) 求 取 共同 列 矢量 空间 U 及 共同 行 矢量 空间 V 的 多 维 尺度 分 析 过 程 ” 在 投影 旋转 因 
子 分 析 法 中 ， 求 得 不 同 My 的 共同 列 矢 量 空间 U 及 其 共同 行 撩 量 空间 V 的 多 维 尺度 分 析 的 
TUCKALS2 方法 实质 上 是 一 种 交替 式 最 小 二 乘法 ， 此 法 主要 由 以 下 步骤 所 组 成 .: 

(D 先 求 出 共同 列 矢 量 空间 UU 或 共同 行 矢量 空间 V' 的 初始 解 ， 在 此 ， 不 失 一 般 性 ， 先 求 
出 共同 列 矢量 空间 U 的 初始 解 ， 即 对 之 M MY 进行 主 成 分 分 解 ， 以 求 得 其 个 最 大 特征 值 
所 对 应 的 n 个 特征 向 量 来 组 成 初始 UW 。 

Q 以 下 为 一 交替 迭代 过 程 ， 即 利用 所 得 的 U 来 求 V， 然 后， 再 利用 所 得 的 V 来 求 新 的 
U， 如 此 循环 ， 直 至 收敛 。 

即 对 于 s 二 1]，2，…， 

a. SPE ) =YV (pop ) 一 iyot, 对 之 M; .POM i 进行 主 成 分 分 解 ， 以 求 得 其 n 个 最 
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大 特征 值 所 对 应 的 个 特征 向 量 来 组 成 VY; 

b. & Pj) SVO VOVO) 1y0, HEM; PEM‘ 进行 主 成 分 分 解 ， 以 求 得 其 个 最 
大 特征 值 所 对 应 的 2” 个 特征 向 量 来 组 成 Ue7 ; 

c. 如 果 所 求 得 的 ‖ uo» —uO | 小 于 某 一 给 定 值 则 停止 迭代 ， 和 否则 转向 a 步 。 

在 上 述 交 蔡 式 迭代 过 程 中 收敛 是 很 快 的 ， 因 在 每 步 的 求解 特征 值 和 特征 向 量 的 过 程 中 就 
相当 于 是 对 trace [ (XM PEM) PP] RË trace (XMP M). PE] 的 不 断 极 大 化 
过 程 ， 而 trace (XM Mp) X trace (>MyM'Y) 就 分 别 是 这 一 极 大 化 过 程 的 收敛 点 。 

由 上 述 迭 代 过 程 求 出 共同 列 矢量 空间 U 或 共同 行 矢量 空间 Vt 后 ， 即 可 利用 它们 来 进行 
分 辨 了 了。 这 样 的 一 个 过 程 ， 也 是 一 个 不 断 按 除 噪声 的 过 程 ， 这 一 点 我 们 在 本 章 开 头 讨论 主 成 
分 分 析 误 差 理论 时 就 进行 过 详细 的 介绍 ， 在 此 不 再 歼 述 。 

(二 ) 广义 秩 消 失 因 子 分 析 法 

关于 三 线性 分 解 的 广义 秩 消 失 因 子 分 析 法 是 Sanchez 和 Kowalski22 提出 的 。 其 基本 思 
路 仍 与 广义 秩 消失 因子 分 析 法 大 臻 相同 ， 即 利用 广义 特征 值 和 特征 向量 的 方法 来 求解 三 维 分 
辩 问 题 。 在 此 ， 它 将 不 局 限于 只 像 前 一 章 所 讨论 的 广义 秩 消失 因子 分 析 法 仅 用 两 个 矩阵 来 进 
行 求解 ， 而 将 其 拓 广 至 多 个 矩阵 进行 直接 分 解 。 实 际 上 ， 早 在 20 世纪 70 年 代 ， 心 理 计 量 学 
的 研究 者 就 指出 ， 对 于 三 维 数据 在 无 任何 附加 条 件 下 因子 分 析 法 就 可 能 求 得 唯一 
解 [25,244， 得 到 唯一 分 解 的 必要 条 件 是 此 数据 应 为 一 个 三 线性 数据 ， 即 








































































































G= Xx, Oy ze 


在 三 维 数据 的 研究 领域 中 ， 特 别 是 在 心理 计量 学 的 研究 领域 中 ， 一 般 都 把 上 式 称 为 
PARAFAC-CANDECOMP 模型 。PARAFAC-CANDECOMP 模型 对 上 式 求解 是 通过 一 个 交 
替 最 小 二 乘 过 程 来 完成 的 ， 即 ALS 先 在 设 已 得 到 (x,) 和 {yn》 的 基础 上 去 求 {ze}， 然 
后 在 设 已 得 到 (y) 和 (21) 的 基础 上 去 求 {x;}， 再 在 设 已 得 到 (2) 和 (x,) 的 基础 上 
ER (ys; ;， 如 此 重复 ， 直 至 收 人 使。 在 此 (x) (y) 和 (zs) 都 是 表示 一 组 向 量 ， 即 
(x) 表示 {x1，xs，…，X,)}， 其 中 为 体系 的 组 分 数 。Deligny 等 首先 将 上 述 迭 代 ALS 
三 线性 分 解法 用 于 估计 色谱 柱 参 数 与 色谱 保留 时 间 的 关系 [5245 ;Appellof 和 Davidson 将 另 
一 三 线性 分 解法 ， 或 所 谓 的 Tucker-1 法 用 于 分 析 化 学 的 色谱 /激发 /发 射 之 三 维 数据 [246] ; 
Wold 等 也 将 Tucker-1 法 用 于 其 他 的 化 学 数据 ， 如 化 学 模式 识别 等 L217] 。 关 于 这 些 三 维 数据 
的 处 理 方法 在 文献 [242] 中 也 有 简要 介绍 ， 有 兴趣 的 读者 可 直接 阅读 此 文 。 下 面 将 主要 介 
绍 Sanchez 和 Kowalski 提出 的 三 线性 分 解 的 广义 秩 消 失 因子 分 析 法 ， 介 绍 分 成 两 部 分 。 

1. 三 维 张 量 是 由 两 个 同样 大 小 的 矩阵 Mi 和 M:z 所 组 成 时 的 三 线性 分 解 的 广义 秩 消 失 因 
TE. 

【基本 思路 】 

最 简单 的 三 维 张 量 是 由 两 个 同样 大 小 的 矩阵 Mi 和 M2 所 组 成 ,不 失 一 般 性 ， 设 式 G— 
2xiCyrCzs 中 的 {zn} 张 成 张 量 的 第 三 维 ， 对 于 这 最 简单 的 情况 ， 此 三 线性 模型 可 表 
示 为 
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Mi —zux, O ys (6-184a) 


M: =z x, CO ys (6-184b) 


在 此 ，n 为 体系 的 组 分 数 。 可 以 看 出 ，z4 王 (zp1,z42)。 对 于 黑色 分 析 体 系 ， 我 们 的 目的 就 在 
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于 求 得 (xs》 和 (yx)}。 求 得 (x) 和 (7 后， 就 相当 于 求 得 了 各 纯 物 种 的 标准 激发 与 发 
射 交 光 光 谱 或 是 纯 物 种 的 标准 色谱 和 光谱 ， 它 们 的 相对 浓度 即 可 从 (z) 中 得 到 。 下 面 将 
详细 讨论 广义 秩 消 失 因子 分 析 法 是 怎样 来 求 得 (x) 和 (yu). 的。 

不 失 一 般 性 ， 设 (yu) 是 一 组 线性 无 关 的 矢量 ， 则 可 以 找到 一 个 这 样 的 矢量 了 ， 使 得 





yiy' —Ó,, 


REP, 8, X Kronecker fj. B k=r Hj. 0, —1. WM kzrHb.3,-0, KER y 在 
张 量 代数 中 被 称 为 (y) 这 组 基 的 第 7 个 协 变 矢 量 。 如 果 Y= [yis y2; c ys 这 样 一 
个 和 矩阵， 那么 ,Y= 二 Eyl, y?. e y" ]t. BlH&—A Bn 个 协 变 矢 量 Gr) 为 其 行 所 构成 
的 矩阵 ， 则 此 时 Y 可 看 成 是 Y 和 抢 阵 的 一 个 广义 道 ， 因 ，YY= 工 工 为 一 单位 和 矩阵。 如 果 将 
协 变 矢 量 y ARR (6-184) 的 两 边 ， 立 即 可 得 











Miy'—zaAx, 
Msy'-z,yx, 
将 上 述 两 式 合并 ， 有 
MITYrzr2 一 Mayrzrl (6-185) 








式 (6-185) 实际 上 是 一 个 广义 特征 值 -特征 向 量 问题 ， 对 于 这 样 的 问题 ， 因 涉及 同时 将 对 角 
化 问题 ， 目 前 有 效 的 算法 是 QZ 算法 ， 然 而 ， 从 现 有 的 计算 数学 发 展 的 情况 看 ， 只 有 当 M: 
和 Ms， 都 是 方 阵 QZ 算法 方 能 求解 ， 所 以 ， 广 义 秩 消失 因子 分 析 法 的 重要 步骤 首先 就 是 将 
M fl M; 都 预先 转换 成 为 方 阵 。 

将 M1 和 M; 都 转换 成 为 方 阵 而 又 不 丢失 信息 的 方法 一 般 可 以 采用 同时 主 成 分 分 解 来 实 
现 。 实 际 上 ， 使 用 我 们 讨论 过 的 多 维 尺度 分 析 的 TUCKALS2 方法 也 是 可 以 实现 将 Mi 和 
M; 都 转换 成 为 方 阵 而 又 不 丢失 信息 ， 但 为 保持 介绍 广义 秩 消失 因子 分 析 法 的 原始 性 ， 这 里 
将 Sanchez 和 Kowalski 提出 的 算法 给 出 详细 介绍 。 

【基本 算法 】 

此 算法 将 由 下 述 两 步 过 程 构成 。 

d) 降 维 过 程 ”此 降 维 过 程 是 通过 求 得 该 两 矩阵 的 共同 列 向 量 或 行 向 量 空间 的 基 向 量 继 
用 投影 而 完成 的 。 下 面 将 分 别 给 予 简 要 介绍 。 

CD 求 取 共 同 列 向 量 和 行 向 量 空间 的 基 向 量 过 程 ”因为 M; = Deuri O yk = 
> zwxry; ， 在 此 i 二 1，2， 即 只 有 两 个 同样 大 小 的 和 矩阵， 所 以 ， 如 果 想 要 求 得 与 (x) K 
成 同一 空间 的 一 组 正 交 基 (ur) MÉ Mi 和 MM; 列 进行 扩展 ， 即 令 



















































































M —[Mi |M;] 

















也 就 是 说 ， 如 果 Mi 和 Ms; 分 别 都 是 一 个 OLOXMO 的 阶 的 矩阵 的 话 ， 那 么 ，M 矩阵 就 是 一 
个 (LX2M) 阶 的 矩阵 ， 这 种 方法 在 线性 代数 中 称 为 展开 方法 。 此 时 如 果 对 M 进行 奇异 值 
分 解 的 话 ， 就 可 以 取 其 得 分 矢量 以 得 到 与 (xi) 张 成 同一 空间 的 一 组 正 交 基 (uu). BI 
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此 时 (uuo 将 与 (cu) 张 成 同一 空间 。 同 理 我 们 也 可 将 M1 和 M2 从 男 一 个 方向 进行 展开 ， 即 令 
"M, 
M= 
LM; 








也 就 是 说 ， 如 果 Mi 和 M2 是 分 别 都 是 一 个 (LXM) 的 阶 的 矩阵 的 话 ， 那 么 ，M 矩阵 就 是 
一 个 (2L XM) 阶 的 矩阵 。 这 样 ， 我们 就 可 对 M 进行 奇异 值 分 解 后 取 其 载荷 矢量 以 得 到 与 
{yx} 张 成 同一 空间 的 一 组 正 交 基 (vij. 

© 投影 降 维 过 程 ”采用 如 此 得 到 的 正 交 基 (us) 和 {vy ;》 所 构成 的 矩阵 U 和 VV 来 对 
Mi A M: 进行 投影 运算 ， 即 可 得 到 相应 的 不 丢失 任何 信息 的 方 阵 ， 具 体 可 依 下 式 进 行 

















Mi —U'M;V (6-186a) 


Ma —U'M;V (6-186b) 


在 此 ，Mip fI Ms, 21 3l 2g M; 和 Ms 在 正 交 基 {wu ,5 和 yx 所 构成 的 矩阵 和 的 投影 
之 下 所 得 到 的 两 个 方 阵 ， 这 是 因为 了 和 矩阵 是 一 个 L Xna) MERE., V EE N IE — 4 
OM Xn4) WIERE, ni 在 此 表示 我 们 在 用 正 交 基 (uu) 和 (va) WREE U I V. 时 所 取 的 
主 成 分 的 个 数 ， 所 以 ，Mi 和 Ma， DIHA (naX nu. 阶 方 阵 。 值 得 指出 的 是 ， 为 不 于 
失 原 始 和 矩阵 Mi 和 Ms 的 信息 ， 一 般 可 将 n. 取 大 点 ， 即 大 于 分 析 体 系 的 实际 组 分 数 ， 以 保 
证 在 以 后 的 广义 特征 值 -特征 向 量 问题 求解 的 QZ 算法 可 顺利 进行 。 另 外 ， 细 心 的 读者 可 能 
会 提出 ， 既 然 上 述 所 得 的 正 交 基 (u,) 和 v DIS (x) 和 y) 构成 同一 线性 子 空 
H. HA. Mi 和 M2 会 不 会 就 成 为 对 角 和 矩阵 ”由 对 Mi 和 Ms 分 别 直 接 进 行 奇异 值 分 解 方 
法 所 得 的 正 交 基 也 是 与 (x,) 和 Cy.) 构成 同一 线性 子 空间 ， 而 那样 所 得 的 正 交 基 是 可 以 
用 式 (6-186) 分 别 将 Mi 和 Ms 对 角 化 的 ， 不 同 在 什么 地 方 ， 留 给 读者 自己 去 仔细 思考 。 

(2) QZ 分 辨 过 程 ” 将 Mi, Mop TAMRE Mi yz; —Moy'za PM; 和 Ms; ,然后 
进行 QZ 算法 计算 , 即 可 得 y" 和 xz,i/z,z ,为 求 得 纯 物 种 的 标准 化 的 激发 光谱 {x ) ,可 参考 式 
Miy'—za4x,5May' 二 zj,2xX,，, 评 即 

x,—-Miy'/lMiy' | 

同 理 , 如 果 我 们 对 Ma! 和 M2! 进行 上 述 过 程 , 即 可 求 出 纯 物 种 的 标准 化 的 激发 光谱 { yx) 

来 ,这 是 因为 像 式 (6-185) 一 样 ,可 得 下 式 
























































X 7 Zr2 —X'z, (6-187) 


【讨论 了 】 

以 上 已 将 三 线性 分 解 的 广义 秩 消失 因子 分 析 法 对 最 简单 的 张 量 分 辩 的 情况 作出 了 介绍 。 
它 虽 与 我 们 在 灰色 分 析 体 系 中 讨论 的 广义 秩 消失 因子 分 析 法 有 相似 的 地 方 ， 但 已 知 条 件 和 求 
解 的 目标 是 不 同 的 。 对 于 灰色 分 析 体 系 中 讨论 的 广义 秩 消 失 因 子 分 析 法 ， 它 的 重点 在 于 定 
Æ, MÆR zi (二 1，2，…，72)， 然 而 ， 在 本 节 所 讨论 三 线性 分 解 的 广义 秩 消失 因子 分 
析 法 ， 因 对 (x) M (yu) 一 无 所 知 ， 其 重点 首先 就 在 于 定性 ， 即 在 于 求 纯 物种 的 标准 激 
发 光谱 {xi) 和 标准 发 射 光谱 (yx}， 从 这 个 意义 来 说 ,它们 又 是 不 同 的 ， 当 然 ， 解 题 的 思 
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路 也 不 同 了 。 

另外 ， 在 此 还 值得 强调 指出 的 是 ， 虽 然 三 线性 分 解 的 广义 秩 消失 因子 分 析 法 并 没有 什么 
特殊 假设 ， 但 是 ， 该 法 仍 存在 一 些 约束 条 件 ， 这 对 于 正确 使 用 该 法 将 十 分 重要 ， 所 以 在 这 里 
有 必要 给 出 介绍 。 

O 对 于 由 式 (6-185) 和 式 (6-187) 所 给 出 的 无 约束 广义 特征 值 -特征 向 量 的 问题 ， 有 
可 能 出 现成 对 的 复数 特征 值 ， 而 这 在 本 文 所 论 及 的 校正 和 分 辨 的 领域 中 是 没有 意义 的 ， 需 要 
作出 相应 变换 ， 转 成 实数 解 。Li 和 Gemperline 对 此 进行 了 详细 研究 ， 有 兴趣 的 读者 可 参阅 
文献 [248]. 

© 从 式 (6-185) 和 式 (6-187) 所 给 出 的 广义 特征 值 -特征 向 量 的 问题 可 以 看 出 ， 几 属 
于 Mi1 和 Ms* 的 零 空 间 的 任何 向 量 e 都 能 以 任意 特征 值 满足 上 述 两 式 ， 因 此 时 有 M2e 二 0。 如 
果 得 到 了 这 样 的 解 ， 必 须 除 去 才 行 。 可 以 采用 下 式 来 检验 所 得 的 解 是 否 属于 M 和 Mo RE 


空间 矢量 ， 如 果 










































































My”" 守 0 








则 说 明 所 得 的 解 为 Mi 和 Ms* 的 零 空 间 的 向 量 ， 必 须 除 去 。 同 时 ， 也 可 以 采用 前 述 的 主 成 分 
投影 方法 来 避免 所 得 的 解 落 入 M LI Ms* 的 零 空间 和 降低 噪声 影响 。 

© 三 线性 分 解 的 广义 秩 消 失 因子 分 析 法 虽 对 于 数据 无 特殊 要 求 ， 但 为 求 得 有 真实 物理 
意义 的 解 ， 它 仍 要 求 Mi 和 RMz 都 是 双 线 性 矩阵 以 及 矢量 集 (x) 和 (ys》 为 线性 无 关 矢 量 。 

D 对 于 三 线性 数据 的 浓度 矢量 xa (k= 二 1，2，…，n)， 广义 秩 消 失 因 子 分 析 法 要 求 它们 
不 能 对 应 成 比例 ， 即 它们 不 能 是 指向 同一 方向 的 矢量 ,， 亦 即 必须 有 ziz, 夺 | za lles la A 
果 这 一 条 件 不 能 满足 ， 它 将 导致 所 得 结果 不 可 靠 。 

2. 三 维 张 量 是 由 D 个 同样 大 小 的 矩阵 Mi 所 组 成 时 的 三 线性 分 解 的 广义 秩 消 失 因 子 分 析 法 

【基本 思路 】 

此 时 ,将 有 DD 个 双 线 性 和 矩阵， 即 






































Mi =z x, CO ys (6-188a) 
M^» = ZkR2 X k C9 yk (6-188b) 
Mp —zipX, CO y. (6-188c) 


式 中 ， Zg = (zi, Zhk2s5. “y EAD)? (k=l, 2. tts. n), 这 样 ， 我 们 可 以 得 到 DD 
(D 一 1) /2 个 广义 特征 值 -特征 向 量 的 求解 问题 ， 即 


Miy'z;? —Ma2y'zà 


Miy'z;a —Msy'z4 , M»y'z,;a —Msy'z, 


Miy'z,?—Mpy'zas. Maosy'z,p—Mpy'z;. . Mpay'z; —Mpy'zipa 











对 于 由 上 述 式 子 所 表 出 的 广义 特征 值 -特征 向 量 的 求解 问题 ， 由 于 量 测 噪声 的 存在 ， 很 难 找 
到 一 个 像 前 述 只 含 两 个 矩阵 的 那 种 简单 情况 的 单个 交 来 直接 求解 D CD 一 1) /2 个 广义 特征 
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值 -特征 向 量 问题 的 ， 而 且 ， 对 于 这 样 多 个 广义 特征 值 -特征 向 量 的 求解 问题 ， 还 不 能 保证 3 
中 任意 两 个 矩阵 都 存在 共同 的 矢量 集 (x,) 和 {yr}。 因 此 ， 对 于 由 上 述 式 子 表 出 的 广义 打 
征 值 -特征 向 量 的 求解 问题 需 另 尽 新 径 。 

反 前 述 只 单纯 从 两 个 矩阵 来 考虑 广义 特征 值 -特征 向 量 问 题 求 解 的 思路 ， 我们 可 以 找 两 
个 可 代表 所 有 D 个 矩阵 的 新 和 矩阵 ， 即 它们 的 线性 组 合 来 解决 这 一 问题 。 令 











tom 





à 














D 
Sp =) w pM: (6-189a) 
k-—1 

式 中 ， p—l. 25» 所 以 ， S, 为 两 个 与 原来 D ^ M; (k=l, Da 9h D) 和 矩阵 相同 大 小 ， 
但 是 它们 所 有 和 抢 阵 的 线性 组 合 而 成 的 矩阵 ，zm 六 (=1，2; k=1, 2. =, DO 为 其 线性 组 
合 系数 ， 它 们 的 正确 选 定 将 成 为 多 个 广义 特征 值 -特征 向 量 求解 问题 的 广义 秩 消 失 因 子 分 析 
法 的 关键 ， 因 将 式 (6-189a) 展开 可 得 














D D n 
S, = $waM, = Dw X zax, CO y, 
k=l k=1 r=j 
D 
=x, G) y. ow 
k=1 


Ag au mm » W pkZrk SWp'Zr> 则 有 


n D n 
Sp = 2 x, Gy D waza =ap (21x, Q y.) (6-189b) 
r=l k=l r-l 


从 上 式 可 以 看 出 ，aw (H51, 2; r—1, 2, «, n) 最 好 都 不 为 零 方 可 使 S$, 能 成 为 所 有 
5 x,C9y, 的 线性 组 合 。Sanchez 和 Kowalski 提出 的 三 线性 分 解 的 广义 秩 消失 因子 分 析 法 
是 通过 下 述 方法 来 求 得 mm (p—1. 2; k=1, 2, =, D) 的 。 

从 图 6-105 可 以 看 出 ， 任 意 一 个 三 线性 张 量 可 以 从 三 个 方向 进行 展开 ， 下 面 将 用 展开 的 
方法 来 求 wps (p —1, 2; &=1，2，…，D)。 先 将 由 了 个 相同 大 小 矩阵 Me CR 一 1，2，…， 
DOj$& y 方向 进行 展开 ， 这 样 可 得 一 个 (D XML ) 阶 的 和 矩阵， 将 其 记 为 Mp ， 对 其 进行 主 成 分 
分 析 后 取 其 两 个 对 应 于 最 大 特征 值 的 得 分 矢量 来 作为 w， Cp 1. 20, HERF w, Cp — 1. 
2) 可 满足 z,750 的 条 件 ， 以 保证 可 将 由 ?个 相同 大 小 矩阵 xy (r= 二 1，2，…，n) 的 信息 
都 包括 在 S$。 Po HR., RK w, (p 二 1，2) 不 局 限于 这 一 种 方法 ， 别 的 方法 也 是 可 行 的 。 只 要 
能 将 个 相同 大 小 矩阵 x,@y; (r= 二 1，2，…，n) 的 信息 都 包括 在 S$， 中 即 可 。 

【基本 算法 】 

由 D 个 同样 大 小 的 矩阵 Ms 所 组 成 张 量 的 三 线性 分 解 广 义 秩 消失 因子 分 析 法 的 具体 算 
法 由 如 下 步骤 构成 : 

(OD 用 Tucker-3 模型 将 一 个 阶 数 为 (OILXMXDO 的 三 维 张 量 M= Xx, yr zx 转化 
成 为 两 个 (2 Xn) 阶 的 矩阵 Mi 和 Ms， 。 在 此 ,L 为 激发 光谱 的 波长 数 ，M 为 发 射 光 谱 的 波长 
数 ; D 为 不 同样 本 的 量 测 所 得 的 二 维 光 谱 矩 阵 的 个 数 ; n 为 体系 化 学 组 分 数 〈 实 际 上 它 是 未 知 的 )。 

(D 将 三 维 张 量 M fü z 方向 展开 (参见 图 6-106)， 得 到 一 个 ( 工 XMD) 阶 矩 阵 后 ， 对 
其 进行 主 成 分 分 解 ， 继 而 取 其 中 7 个 得 分 矢量 构成 一 个 与 矢量 集 x, 张 成 同一 线性 子 空 
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展 ” [Xzyx,gy,biXzyx,89y] 
方 向 
z 
x 方 向 展 
[Zx4y,gz, i i Ex4y, Oz] 


Gr x mx p Ex 8y,82z, 





THE xPApb- 





[Xy4z,8x, b Xy uz, x] 


三 线性 张 量 的 三 个 方向 展开 示意 图 


间 的 矩阵 U : 
[Mi |: | Mp] =U:S: Vit, 并 令 U=Ui(L X0) 
在 此 为 一 LXn) WEE, EWE TAT n TS AS. 
Q 将 三 维 张 量 M 按 x 方向 展开 (参见 图 6-106)， 得 到 一 个 (MXLD) MEER, X 
其 进行 主 成 分 分 解 ， 继 而 取 其 中 ”个 得 分 矢量 构成 一 个 与 矢量 集 (yr) 张 成 同一 线性 子 空 
PEJ HS ZE RE V : 








[Mi |= | M5] =U:S:V} ŽS V=U:(L Xn) 


EHV 为 一 OM X» 阶 和 矩阵 ， 它 收集 了 前 ?个 得 分 矢量 。 

Q 将 三 维 张 量 M 按 y 方向 展开 (参见 图 6-106) ， 得 到 一 个 (DXML) WERE, X 
其 进行 主 成 分 分 解 ， 继 而 取 其 中 两 个 得 分 矢量 构成 一 个 与 矢量 集 {zx 张 成 同一 线性 子 空 
间 的 和 矩阵 W : 











C>) yuza Axr |e] X) yuz: G9x,]—UsSsVs! ŽS W-—UsCOD X2) 


在 此 ，W 为 一 (DX2) 阶 和 矩阵 ， 它 收集 了 前 两 个 得 分 矢量 。 
由 将 三 维 张 量 M 投影 于 (U,V,，W}) 为 基 的 特征 空间 之 上 ， 以 得 到 两 个 (nx Xn) 阶 的 


HERE Mi 和 Ms. 





D D 
M; = Dw I'M,V), Mo = 2 w p (UMeV) 
k=1 k=1 





(2) 对 两 个 aXn) BERSAR IE Mi 和 Ms 来 进行 广义 特征 值 一 一 特征 向 量 问题 求解 
(D 使 用 QZ 算法 以 得 到 满足 下 式 的 特征 向 量 x”， 





Mix'Aos, 一 MX7A1， 
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© 将 所 得 的 2” 个 特征 向 量 x^ (r1. 2. c. n) 收集 以 构成 一 个 矩阵 ， 继 而 求 得 它 的 
w, WAX. 
Q 使 用 QZ 算法 以 得 到 满足 下 式 的 特征 向 量 y". 








1y7A2r =M5 yà 





@ 将 所 得 的 n 个 特征 向 量 y” =l, 2, e, n) 收集 以 构成 一 个 矩阵 ， 继 而 求 得 它 的 
ut, WAY, 

(3) 求 纯 物种 的 激发 光谱 (0,0 和 发 射 光 谱 {y,》 及 其 相对 浓度 (z) 

(D X=UX 在 此 X 和 矩阵 收集 了 7 个 矢量 xus 


© Y-—vyY 在 此 Y 矩阵 收集 了 nn 个 矢量 ys 
O 用 求 得 的 激发 光谱 {x,) 和 发 射 光谱 {y,》 来 求 相对 浓度 (x). BIRD 个 二 维 量 
dM, k=1, 2, =, DD) 进行 回归 运算 . 








M} =z xX] Gy1 十 … 十 zxXz，CO Yn (R 一 1， 2 es. D) 


以 求 得 (zs. 

【讨论 了】 

Sanchez 和 Kowalski 用 广义 秩 消 失 因 子 分 析 法 对 一 个 模拟 的 三 组 分 荧光 二 维 光 谱 体 系 
进行 了 计算 ， 他们 模拟 的 三 个 样本 分 别 含 不 同 浓度 的 三 、 遍 和英 蕊 ， ws 
为 : 样本 A 为 (1,，1,， D; 样本 B 为 (2，1，2); 样本 C 为 (1，1，1)。 三 个 样本 的 二 维 
荧光 光谱 图 分 别 示 于 图 6-106。 在 每 个 二 维 获 光 光 谱 中 均 加 入 了 1% 的 正 态 分 布 的 量 测 误差 。 





















SS 
NUS 
i " e 




















| A ZS CA AN Ny Ir 
vw. p OA Y SN nr 
ee ue SS 
MSN NN ISSN 







Qe T 





n X b SN 


wr si 450 
» * wi [Z. 2004 ed 
激发 波长 /am 300 350 发 射 波长 /am 


250s 3 














三 个 模拟 体系 的 二 维 光 谱 图 
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图 6-107 示 出 了 从 三 线性 直接 分 辨 的 广义 秩 消 失 因 子 分 析 法 ， 即 采用 全 部 样本 的 二 维 痰 


d: H 


光 光 谱 之 线性 组 合 的 计算 方法 的 所 得 








吉 果 ， 从 图 可 以 看 出 ， 所 得 结果 是 相当 令 人 满意 的 。 图 
6-108 示 出 了 只 用 样本 A 和 B 来 计算 的 广义 秩 消失 因子 分 析 法 的 计算 结果 ， 因 为 两 个 样本 的 
相对 浓度 比 A/B 为 (0.5，1，1)， 即 和 荧 意 的 相对 浓度 比例 是 相同 的 ， 所 以 ， 此 时 的 广义 














对 于 这 两 种 物种 是 不 令 人 满意 的 。 
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采用 全 部 样本 的 二 维 荧光 光谱 之 线性 组 合 的 广义 秩 消失 因子 分 析 法 的 计算 所 得 结果 


此 外 ， 在 广义 秩 消 失 因 子 分 析 法 的 计算 中 ， 对 
UE. M Sanchez 和 Kowalski 








[于 组 分 数 的 估计 也 是 一 个 十 分 重要 的 步 























的 经 验 ， 对 组 分 数 的 估计 过 多 对 结果 影响 不 大 ， 多 估计 的 组 分 





所 对 应 的 是 噪声 谱 ， 很 容易 甄别 ， 但 是 ， 如 果 对 组 分 数 估计 不 够 ， 即 小 于 体系 实际 组 分 数 


时 ， 对 结果 影响 很 大 ， 而 致使 所 得 结果 不 可 靠 。 





在 此 还 值得 提出 的 是 ， 近 年 来 ， 有 关 三 线性 分 解 的 算法 有 了 较 快 的 发 展 ， 这 在 Mali- 
nowski 新 版 的 《化 学 中 的 因子 分 析 》(2002 版 ) 给 出 了 较为 详细 的 介绍 ， 该 书 新 增 的 讲述 
三 线性 分 解 方法 的 章节 中 ， 介 绍 了 多 种 新 方法 ， 包 括 了 平行 因子 分 析 (PARAllel FACtor a- 





nalysis, PARAFACOU4, Z= H 





E ^r ft Jr 1k (alternating trilinear decomposition 





ATLD)C99. 、 交 替 同 时 对 角 化 方法 (alternating slicewise diagonalization) 2? 、 伪 交替 最 小 
二 乘 方法 (pseudo alternating least squares)? 、 自 加 权 交 蔡 三 线性 分 解 (self weighting 
alternating trilinear decomposition，SWATLD)L255 等 。Malinowski 指出 ， 传 统 方法 对 于 三 


线性 模型 化 学 秩 佑 计 过 于 敏感 。 如 三 线 怕 




















E 模 型 化 学 秩 估计 不 当 ， 传统 方法 将 陷入 计算 涡 绥 
区 ， 产 生 无 化 学 意义 的 解 ， 而 交 蔡 同时 对 角 化 方法 却 具有 化 学 秩 估计 的 稳定 性 ， 它 不 仅 克 服 








了 传统 方法 所 涉及 的 两 因子 退化 问题 ， 且 收银 大 大 加 速 。 伪 交替 最 小 二 乘 方法 是 交替 三 线性 
分 解 的 进一步 改进 ， 它 免除 了 交替 三 线性 分 解 对 三 个 方向 对 称 性 的 要 求 。 自 加 权 交 替 三 线性 











E | 分 析 化 学 


分 解 CSWATLDO 则 不 要 求 预知 体系 中 组 分 数 。 


FH 10 化 学 计量 学 


感 等 优点 ， 是 一 个 很 好 的 三 线性 方法 。 





此 法 具有 收敛 快 、 


对 计算 用 的 组 分 数 不 敏 
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只 采用 样本 A 和 B 的 二 维 荧 光 光 谱 来 计算 的 广义 秩 消失 因子 分 析 法 的 结果 


第 六 节 ”广义 灰色 分 析 体 系 的 多 元 校正 模型 


H 1800 年 
有 用 的 光谱 [259 ， 


左右 ， 
直到 20 世纪 60 年 代 中 





近 红 外 光谱 与 广义 灰色 分 析 体 系 
近 红 外 光谱 就 被 发 现 ， 但 因 其 定性 功能 特异 性 不 强 ， 起 初 被 认为 是 没 














Hj. rz 




















[外 光谱 ， 作 为 一 种 分 析 技 术 ， 才 被 应 用 到 实 
际 分 析 之 中 。 近 红 外 光谱 所 在 的 波长 范围 为 780 一 2526nm ( 波 数 为 12820 一 3959cm - ! ) 91 





7-256]. 


其 主要 是 由 于 分 子 的 振动 以 及 分 子 中 的 一 些 基 本 的 一 XH 键 的 振动 产生 ， 其 中 X 可 以 是 碳 原 
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T C. K 
由 于 其 特 




















原子 N、 氧 原子 O 或 硫 原 子 S， 而 且 主 要 是 倍 频 与 组 合 频 ， 
异性 不 强 ， 故 定性 能 力 有 限 。 


与 中 红外 光谱 相 比 较 ， 





在 20 世纪 50 年 代 ， 对 于 农产品 中 水 分 、 蛋 白质 和 油分 含量 的 快速 定量 测定 的 要 求 日 益 


增 大 ， 当 时 在 美国 农业 部 工作 的 Kari Norris 负责 解决 小 麦 中 部 分 成 分 测定 的 问题 。 





了 近 红 外 光谱 ( 


NIR) 技术 。 


(MLR) 解决 农产品 分 析 中 的 校准 问题 的 报道 。 


谱 分 析 的 实验 部 门 。 


特别 是 近 20 年 来 ， 








他 选择 





1968 年 ，BenGera 和 Norris 发 表 了 使 用 多 元 线性 回归 
到 20 世纪 70 年 代 ， 
由 于 近 红 外 仪器 的 改进 、 











美国 成 立 了 多 个 NIR 光 
光纤 技术 的 发 展 、 计 算 机 


性 能 的 提升 和 新 的 化 学 计量 学 数据 处 理 方法 的 开发 ， 使 得 近 红 外 光谱 仪器 不 仅 广泛 地 应 用 于 
而 且 广泛 地 应 用 于 其 他 工业 ， 如 食品 工业 [257、 


制药 工业 [56 中 ， 








农业 i253] 、 高 分 子 、 纺 织 
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业 、 化 学 [591 、 石 油 [2804 中 。 近 年 来 ， 近 红外 光谱 分 析 技 术 一 直 是 PITTCON 会 议 的 热点 。 
其 应 用 领域 已 包括 食品 、 农 业 、 石 化 、 纺 织 、 制 药 、 生 物 医 学 、 生 命 科学 等 ,已 成 为 分 析 化 
学 中 一 个 不 能 忽视 的 发 展 领 域 。 

特别 指出 的 是 ， 由 于 红外 光谱 仪器 具有 快速 和 非 损 坏 性 检测 、 操 作成 本 低 、 无 需 复 杂 的 
样本 预 处 理 等 特点 ， 特 别 是 它 与 化 学 计量 学 方法 相 结合 ， 非 常 适合 制药 工业 的 过 程 分 析 技 术 
(process analytical technology. PAT)U91—255, MH, PAT 使 近 红 外 光谱 仪器 在 制药 工业 
的 生产 过 程 中 的 每 个 阶段 都 发 挥 了 越 来 越 重 要 的 作用 。 原 材料 或 一 些 中 间 体 中 的 一 些 性 质 ， 
如 微粒 大 小 、 密 度 和 形态 对 现代 制药 工业 的 生产 过 程 中 最 后 的 产品 质量 有 着 极其 重要 的 影 
响 ， 因 此 ， 需 要 对 原材料 的 这 些 性 质 也 进行 定量 或 定性 检测 ， 近 红外 光谱 仪器 结合 化 学 计量 
学 在 此 起 到 了 至 关 重 要 的 作用 [361,267~271] 。 同 时 ， 使 用 近 红 外 光谱 仪器 还 可 对 原材料 或 药品 
中 间 体 的 其 他 性 质 ， 如 水 分 527223、 微 粒 尺 十 [242755、 表 面积 52791、 形 态 分 布 和 非 结 
晶 [277.278] 等 进行 检测 和 过 程控 制 。 由 于 使 用 了 近 红 外 光谱 对 制药 工业 生产 过 程 中 的 重要 的 
物理 的 或 化 学 的 参数 进行 定量 分 析 ， 从 而 优化 了 工艺 参数 ， 提 高 了 产品 质量 [279-?83] 。 
Kamat 使 用 近 红 外 光谱 仪器 对 一 系列 药品 产品 中 的 残留 水 分 进行 检测 ， 从 而 对 药品 的 稳定 
性 进行 了 研究 [2 。Arnold 等 使 用 近 红 外 光谱 数据 对 制药 工业 中 的 生产 泰 乐 菌 素 抗生素 的 
发 酵 过 程 进行 实时 在 线 控制 [8 。Cho 等 的 研究 显示 ， 近 红外 光谱 具有 潜在 的 对 药剂 中 药物 
活性 成 分 的 均匀 性 进行 分 析 的 能 力 [?86] 。 在 制药 生产 过 程 中 ， 近 红外 光谱 仪器 还 可 应 用 于 对 
后 续 的 药片 或 胶 吉 的 生产 或 最 终 药 品 的 在 线 监 测 !27'25] 。 药 品 的 干燥 是 制药 工业 中 生产 药 
品 的 一 个 重要 步骤 ，Sukowski 和 Ulmschneider 通过 使 用 近 红 外 光谱 仪器 对 最 终 产品 中 的 水 
分 测定 ， 实 现 了 干燥 过 程 的 精确 在 线 控制 [3 。Fevotte 通过 近 红 外 光谱 仪器 对 制药 工业 中 
的 结晶 化 生产 过 程 进行 过 程控 制 [3 。 药 品 的 包 庄 厚度 直接 影响 药品 中 药物 活性 成 分 的 释放 
效果 ， 通 过 近 红 外 光谱 仪器 使 用 光纤 探头 ， 可 对 药片 的 包 右 过 程 进 行 在 线 控制 [2 。 制 药 工 
业 生 产 过 程 中 的 最 后 一 步 是 包装 ， 可 以 利用 近 红 外 光谱 仪器 对 最 后 的 包装 过 程 进 行 控制 ， 以 
确保 100% 的 包装 成 功率 [3 。 因 此 ， 在 2002 年 ， 美 国 食品 和 药品 管理 局 (FDA) 提出 了 一 
种 新 的 过 程控 制 方法 ， 其 主要 内 容 是 “用 一 个 可 以 设计 、 分 析 和 控制 生产 过 程 的 系统 ， 通 过 
对 最 终 产 品质 量 有 重要 影响 的 原材料 ， 生 产 过 程 中 的 物料 和 生产 过 程 进行 实时 检测 和 控制 ， 
从 而 确保 最 终 产品 的 质量 ”283] 。 美 国 食品 和 药品 管理 局 鼓励 在 制药 工业 的 生产 过 程 中 设计 
和 开发 实时 的 连续 的 控制 方法 〈 包 含 对 生产 过 程 中 的 重要 中 间 步 又 和 关键 点 进行 在 线 多 维 检 
测 )， 通 过 增加 对 生产 过 程 的 理解 ， 从 而 确保 在 生产 过 程 的 最 后 获得 预期 的 产品 质量 。 需 注 
意 的 是 ，PAT 不 仅 适 用 于 制药 工业 ， 同 时 也 适用 于 石化 和 食品 工业 等 [2%4'295] 。 

尽管 由 于 红外 光谱 仪器 自身 的 特点 ， 其 广泛 应 用 于 工业 生产 过 程 中 的 过 程 或 质量 控制 ， 
但 是 近 红 外 光谱 仪器 同样 也 有 一 些 缺陷 ， 如 响应 强度 低 即 吸收 系数 低 ， 其 光谱 中 的 不 同 组 分 
的 吸收 峰 较 宽 并 且 可 能 重 钱 ， 获 得 大 量 高 度 线性 相关 光谱 信号 ， 从 而 使 得 获得 的 红外 光谱 数 
据 难 以 解释 ， 很 难 对 光谱 中 的 不 同 物质 的 光谱 峰 信号 进行 直接 区 分 等 。 因 此 ， 和 急需 开发 新 
的 、 稳 健 的 数学 或 多 元 校正 模型 (新 型 化 学 计量 学 方法 ) 来 获得 制药 工业 生产 过 程 或 其 他 工 
业 生 产 过 程 中 的 真实 信息 。 与 其 他 工业 生产 过 程 一 样 ， 在 制药 工业 的 生产 过 程 中 应 用 近 红 外 
光谱 仪器 进行 过 程控 制 的 成 功 与 否 取决 于 稳健 、 精 确 和 可 靠 的 数据 或 信号 处 理 程序 。 因 此 ， 
化 学 计量 学 方法 在 PAT 中 发 挥 了 十 分 重要 的 作用 。 


二 、 广 义 灰色 分 析 体 系 的 模型 校 验方 法 


在 讨论 广义 灰色 分 析 体系 的 模型 校 验方 法 之 前 ， 先 来 看 一 个 有 关 广 义 灰 色 分 析 体 系 建 模 
的 有 趣 实例 。2004 年 ， 在 巴黎 举行 了 一 次 国际 化 学 计量 学 会 议 ， 会 议 期 间 ， 组 委 会 在 其 网 
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站 (http: //lib. stat. cmu. edu/datasets/tecator) 上 公开 了 一 套 近 红 外 光谱 数据 ， 数 据 包含 
一 个 校正 集 和 两 个 不 知 结果 的 检验 集 ( 在 分 析 化 学 中 俗称 “ 盲 样 ”)。 会 议 期 间 ， 代 表 被 邀 
请 采用 各 自 的 方法 来 进行 建 模 ， 并 对 两 个 独立 且 未 知 的 检验 集 进行 预报 。 组 委 会 最 后 收 到 9 
份 答案 (参见 表 6-26)， 其 中 第 10 号 为 组 委 会 的 预测 结果 ， 故 以 星 号 表 出 以 示 区 别 。 


评判 组 根据 RMSEP 结果 对 参与 者 的 排名 




















参与 者 编号 评判 组 最 终 排名 | RMSEP( 检 验 集 1) | 检验 集 1 的 排名 | RMSEP( 检 验 集 2) | 检验 集 2 的 排名 
1 5 4. 06 3 2.44 7 
2 9 35.55 9 8. 44 9 
3 3 3. 39 2 . 48 4 
4 8 9. 50 7 2.13 6 
5 4 6. 19 6 .37 3 
6 1 5.16 4 0. 72 1 
7 7 5.4 5 1.29 2 
8 6 10. 00 8 2.67 8 
9 1 3. 26 1 1.81 5 
10* — 1. 24 = 0.75 — 

















从 表 中 所 示 结 果 可 以 看 出 ， 所 得 预测 结果 大 相 径 庭 ， 令 人 吃惊 。 预 测 误差 的 均 方 根 
(root of mean square of errors of prediction, RMSEP) 随 方法 不 同 而 差别 巨大 ， 最 大 的 可 达 
35. 55， 而 最 小 的 却 只 有 1. 24。 这 些 结 果 说 明 ， 对 广义 灰色 分 析 体 系 的 校正 建 模 的 结果 并 非 
显而易见 ， 其 中 还 有 很 多 为 未 知 部 分 ， 不 可 等 闲 视 之 。 

值得 提出 的 是 ， 参 与 者 用 了 许多 方法 ， 包 括 线性 的 回归 方法 和 非 线 性 方法 、 全 局 的 方法 
和 局 部 的 方法 等 ， 依 照 组 织 者 的 观点 ， 首 先 ， 近 红外 光谱 的 预 处 理 方 法 十 分 重要 ， 但 参与 竞 
赛 者 用 得 不 多 ， 另 外 ， 他 们 还 认为 ， 立 足 于 局 部 校正 和 非 线 性 校正 的 方法 似 明 显 好 于 全 局 线 
性 方法 ， 除 非 之 前 已 对 样本 进行 了 分 类 处 理 等 。 当 然 ， 组 织 者 的 这 些 观点 并 不 一 定 就 绝对 正 
确 ， 但 这 个 问题 的 提出 是 值得 引起 我 们 深思 的 。 在 笔者 看 来 ， 如 何 有 效 地 选择 较 好 模型 以 及 
如 何 对 模型 进行 有 效 评 价 至 今 还 应 是 一 个 未 得 到 很 好 解决 的 问题 。 

《一 ) 模型 过 拟 合 与 潜 变 归 模 型 

在 讨论 模型 过 拟 合 与 潜 变 量 回归 模型 之 前 ， 似 有 必要 讨论 一 下 我 们 所 面临 的 广义 灰色 校 
正 模型 的 基本 特点 。 我 们 用 近 红 外 或 拉 曼 光谱 对 校正 集 样本 进行 快速 的 光谱 测量 得 矩阵 X. 
在 所 测 光 谱 与 标杆 分 析 方法 所 得 分 析 结 果 y 之 间 建 立 一 个 数学 模型 ， 即 












































































































































y-fOD (6-191) 





由 于 我 们 对 f C0 这 一 函数 关系 知之 较 少 ， 它 是 线性 还 是 非 线性 不 清楚 ， 并 没有 类 似 朗 伯 - 
比 耳 定律 作为 其 分 析 校 正 基础 ， 而 且 ， 波谱 中 的 响应 变量 亦 不 能 确定 。 所 以 ， 在 前 儿童 所 讨 
论 的 方法 和 标准 都 不 太 适 应 在 此 讨论 的 广义 灰色 校正 模型 。 此 外 ， 近 红外 或 拉 曼 光谱 数据 的 
背景 影响 不 明显 ， 目 前 还 无 一 规定 统一 的 前 处 理 方法 。 更 为 重要 的 是 ,一 般 说 来 ,一 个 近 红 
外 或 拉 曼 光谱 大 都 有 上 干 个 波长 或 波 数 点 ， 此 数目 一 般 都 比 样本 数 要 多 ， 致 使 矩阵 X'X 严 
重 亏 秩 ， 很 难 使 用 常规 最 小 二 乘 来 求解 。 这 些 原因 都 导致 广义 灰色 校正 模型 求解 困难 ， 并 且 
还 使 得 模型 的 评价 变 得 更 为 困难 ， 可 以 说 目前 对 此 还 没有 统一 标准 ， 是 一 个 值得 深入 研究 的 
重要 课题 。 

对 于 式 (6-191) 所 示 的 模型 ， 一 般 首 先 都 采用 较为 简单 的 线性 模型 来 处 理 ， 假 设 其 可 
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用 下 式 来 近似 表 出 ， 即 


y—Xp--e (6-192) 








AF, p 是 回归 系数 矢量 ; X 是 样本 的 量 测 谱 和 矩阵 ; e 为 随机 误差 ， 仍 假设 服从 均值 为 
E, 方差 为 c2 的 正 态 分 布 ; y 为 响应 变量 。 对 上 述 线性 模型 的 最 小 二 乘 估计 为 : 


fis = OX Xy 


但 是 ， 对 于 近 红 外 或 拉 曼 光谱 数据 ， 由 于 样本 个 数 远 远 小 于 变量 〈 波 长 点 ) 个 数 ， 更 一 
般 地 ， 样 本 矩阵 X 的 秩 小 于 g 二 min(mx，n)， 致 使 矩阵 X'X 严重 亏 秩 ， 强 行 求 道 运算 将 导 
臻 最 小 二 乘 估计 不 稳定 。 究 其 原因 ， 就 是 因为 这 些 光 谱 变量 之 间 存 在 非常 严重 的 共 线 性 ， 在 
模型 共 线 性 和 变量 数 多 于 样本 数 的 情况 下 建 模 ， 对 训练 集 的 样本 而 言 ， 拟 合 误差 可 以 降 至 为 
零 ， 即 模型 可 以 通过 训练 集 的 每 一 个 数据 点 ， 模 型 的 复杂 度 可 以 很 高 〈 如 引入 过 多 的 变量 或 
采用 高 次 函数 )， 此 时 ， 训 练 集 数据 点 的 误差 可 无 限 减 小 ， 但是， 在 这 种 情况 下 所 求 得 的 有 
将 由 于 模型 太 复杂 而 导致 预测 精度 的 严重 下 降 ， 这 种 情况 ,在 统计 学 中 被 称 为 过 拟 合 
(over-fitting)。 图 6-109 示 出 了 一 个 回归 模型 过 拟 合 的 示意 例子 。 从 图 可 以 看 出 ， 由 实 线 构 
成 的 模型 较为 简单 (一 条 简单 曲线 )， 但 它 实际 上 已 可 较 好 地 描述 实验 所 得 数据 点 ， 虽 训练 
集 数据 点 到 模型 都 还 存在 一 些 误差 .但 误差 并 不 太 大 ， 也 可 以 说 是 基本 服从 正 态 分 布 的 随机 
误差 ， 而 由 点 线 (虚线 ) 构成 的 模型 复杂 得 多 (一 条 多 项 式 复杂 曲线)， 它 拟 合 得 确实 很 好 ， 
几乎 通过 了 所 有 训练 集 的 数据 点 ， 使 得 这 些 训练 集 的 数据 点 到 模型 曲线 的 距离 接近 于 零 (如 
按 传统 拟 合 优 度 来 说 已 是 很 好 的 模型 ), 但 是 ,一 旦 来 了 一 些 新 的 数据 点 ( 即 预 测 集 数据 
点 )， 此 模型 所 得 的 预测 误差 却 很 大 ， 可 这 些 预 测 集 数据 点 与 实 线 构成 的 简单 模型 的 预测 误 
差 却 与 该 简单 模型 (一 条 简单 曲线 ) 的 拟 合 误差 相当 。 此 时 ， 宁 可 要 拟 合 误差 较 大 的 简单 模 
型 ， 而 不 能 要 拟 合 误差 很 小 的 复杂 模型 ， 因 它 的 预测 误差 太 大 了 ， 而 致使 模型 的 泛 化 能 力 太 
弱 (或 称 模型 推广 效应 低 )。 这 些 事实 告诉 我 们 ， 采用 预测 误差 来 评价 广义 灰色 校正 模型 是 
一 个 较为 合理 的 模型 评价 标准 。 
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。 训 练 集 数据 点 
， 预测 集 数据 点 
— 实际 模型 


--- 过 拟 合 模型 








ERSU 回归 模型 过 拟 合 示意 图 








对 于 这 样 的 共 线 性 问题 ， 统 计 学 中 是 有 些 方 法 来 处 理 的 ， 典 型 的 就 是 采用 第 三 章 介 绍 的 
岭 回 归 人 解析 方法 。 而 在 化 学 计量 学 中 ,采用 最 普 裔 的 方法 还 是 所 谓 潜 变 量 (latent variable, 
LV) 方法 ,主要 包括 主 成 分 回归 (PCR) 和 偏 最 小 二 乘 (PLS) 回归 。 潜 变量 是 这 两 种 方 
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法 的 共同 特点 ， 即 通过 原始 的 变量 的 重新 组 合成 新 的 潜 变 量 (PCR 或 PLS 组 分 ) ， 继 而 建 
响应 与 潜 变 量 的 回归 模型 。 

主 成 分 回归 565.27 是 一 种 最 简单 的 潜 变 量 回归 模型 。 现 就 以 它 来 说 明 潜 变 量 回归 模型 
的 建立 过 程 。 首 先 将 光谱 信号 或 数据 矩阵 X 进行 奇异 值 分 解 ， 分 解 成 一 系列 正 交 的 变量 ， 
即 得 分 矩阵 工 、 对 角 和 矩阵 〈 特 征 值 ) S 和 载荷 矩阵 VT， 如 我 们 令 SVT 二 PT7， 即 得 ， 
































X —TSVT +E —TPT +E 








式 中 ,E 代表 光谱 数据 矩阵 外 XE A Ar AEE IREE E. PAERD, Wi RNE A 
其 主 成 分 ， 即 取 大 特征 值 所 对 应 的 特征 得 分 矢量 T. RERED, MEJLA ERDHE TF 
面 讨 论 ) 来 替代 原始 数据 和 矩阵 X， 继 而 直接 以 T. 代 替 数 据 矩 阵 X 进行 回归 分 析 ， 以 获得 回 
JH Beca. ， 即 




















Becr = CIT.) TLy (6-193) 


XB. y 为 响应 变量 。 

注意 到 经 此 变换 后 有 几 个 优点 : 中 采用 大 特征 值 对 应 的 特征 得 分 矢量 Ts 来 奉 代 原始 数 
据 和 矩阵 X 就 相当 于 对 原始 数据 抢 阵 X 进行 了 降 维 处 理 ， 只 用 主 成 分 而 弃 去 了 误差 变量 的 影 
响 ; @ 因 T。 所 收集 的 特征 得 分 矢量 都 相互 正 交 ， 后 引入 的 变量 不 受 已 引入 变量 相关 性 影响 ， 
可 依次 引入 ; 图 由 于 只 采用 大 特征 值 对 应 的 特征 得 分 矢量 TJ 来 蔡 代 原始 数据 矩阵 X， 求 逆 
也 只 是 对 (TIT) 来 进行 ， 从 而 避免 了 对 严重 亏 秩 和 矩阵 XIX 的 求 逆 问 题 ， 使 过 拟 合 风 险 大 
大 降低 ， 最 终 克服 多 元 线性 回归 方法 中 的 局 限 ， 使 得 多 元 校正 得 以 进行 。 

然而 ， 在 此 还 有 一 个 问题 ， 就 是 我 们 得 选 多 少 个 主 成 分 进入 模型 最 好 呢 ? 在 前 几 章 的 讨 
论 中 ， 特 别 是 在 讨论 白色 分 析 体 系 的 间接 校正 时 ， 也 采用 主 成 分 回归 ， 但 那 是 根据 体系 的 组 
分 数 来 选 主 成 分 数 。 可 对 广义 灰色 体系 ， 我 们 对 体系 的 组 分 数 无 任何 信息 ， 显 然 这 种 方法 不 
能 使 用 。 那 么 ， 我 们 将 采用 什么 方法 来 进行 主 成 分 数 的 选择 呢 。 这 正 是 我 们 在 下 面 将 要 讨论 
的 问题 。 

(二 ) 模型 复杂 度 与 预测 标准 的 提出 

从 上 述 讨 论 可 知 ， 对 于 广义 灰色 分 析 体 系 模型 ， 由 于 其 模型 的 不 确定 性 ， 其 处 理 思路 、 
模型 校 验 和 结果 评价 将 与 前 三 章 讨论 的 硬 模 型 的 解析 方法 大 不 相同 ， 由 于 式 〈6-191) 中 的 
函数 关系 SCO) 实际 是 未 知 的 ， 函 数 关 系 (线性 或 非 线 性 ) 无 法 确定 ,我 们 之 所 以 采用 线性 
模型 ， 只 是 想 用 这 一 简单 模型 来 逼近 /(.) ， 并 非 有 一 个 保证 其 确实 是 线性 模型 的 物理 或 化 
学 定律 作为 回归 建 模 的 基础 。 所 以 ， 对 于 广义 灰色 分 析 体 系 ， 其 重点 就 将 主要 是 集中 于 考察 
模型 的 预测 效果 ， 强调 后 续 的 模型 预测 性 能 和 泛 化 能 力 ; 模型 的 评价 和 校 验 也 将 不 用 前 三 章 
讨论 的 模型 拟 合 标准 ， 即 R? 〈 模 型 所 解释 的 方差 )， 而 是 所 得 模型 的 预测 误差 ， 即 Q? ( 模 
型 在 预测 中 所 能 解释 的 方差 )。 如 有 可 能 与 数据 量 测 误差 进行 比较 ， 也 将 不 应 该 采用 模型 残 
差 (model residual) ， 而 应 该 是 模型 的 预测 误差 (predictive errors) 。 所 以 ， 对 于 广义 灰色 
分 析 体 系 模 型 ， 主 成 分 数 的 选择 也 应 建立 在 模型 的 预测 能 力 的 基础 之 上 。 

实际 上 ， 对 于 这 样 模型 未 知 分 析 系 统 的 回归 分 析 ， 是 目前 统计 学 和 机 器 学 习 研 究 中 的 重 
点 和 难点 问题 ， 统 计 学 家 们 和 计算 机 科学 研究 工作 者 对 此 进行 了 较为 详细 的 研究 233] 。 对 于 
此 问题 ， 一 般 比 较 公 认 的 结论 是 ， 回 归 建 模 需 在 模型 复杂 度 方面 找到 一 个 平衡 点 ， 既 要 防止 
模型 拟 合 不 够 ， 又 不 能 让 模型 过 于 复杂 (参见 图 6-110)。 对 于 前 面 讨 论 的 潜 变 量 回 归 模 型 ， 
主 成 分 数 的 选择 就 是 这 样 一 个 问题 ， 当 主 成 分 数目 太 小 时 ， 此 时 因 模 型 的 复杂 度 过 小 ， 模 型 
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会 发 生 欠 拟 合 (underfitting)， 即 拟 合 不 好 的 情况 ， 这 时 ,8B 的 潜 变 量 回归 模型 估计 的 偏 
(bias) 较 大 ， 造 成 模型 误差 偏 大 ; 反之 ， 如 果 模 型 中 潜 变 量 过 多 ， 即 模型 过 于 复杂 ， 模 型 
会 产生 前 述 的 过 拟 合 现象 ， 这 时 ， 虽 然 8 的 潜 变 量 回归 模型 估计 的 偏 较 小 ， 模 型 拟 合 得 很 
好 ,但 方差 较 大 ,使 得 模型 的 预测 误差 也 大 (参见 图 6-110) 。 因 此 ， 回 归 建 模 既 要 防止 过 于 
简单 的 回归 模型 ， 又 不 能 让 回归 模型 过 于 复杂 。 如 何 找 到 这 样 一 个 平衡 点 ， 使 得 此 点 所 对 应 
的 潜 变 量 回归 模型 的 潜 变 量 数目 就 为 最 佳 主 成 分 数 。 从 图 6-110 我 们 可 以 看 到 ， 模 型 的 预测 
误差 的 最 小 点 正好 可 能 相当 于 模型 偏 和 模型 过 拟 合 综 合 效 应 的 最 小 点 ， 故 在 化 学 计量 学 和 统 
计 学 中 ,一 般 都 采用 模型 的 预测 误差 来 决定 潜 变 量 回归 模型 的 最 佳 主 成 分 数 。 
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模型 的 复杂 度 
广义 灰色 体系 的 回归 的 模型 复杂 度 
与 模型 预测 误差 的 关系 示意 图 
































在 此 ， 我 们 还 只 是 比较 抽象 地 讨论 了 广义 灰色 体系 的 回归 的 模型 复杂 度 与 模型 预测 误差 
的 关系 ， 有 关 如 何 更 深入 地 讨论 模型 的 偏 和 模型 方差 的 具体 形式 ,我 们 将 在 后 续 的 介绍 中 具 
WEF. 

(三 ) 检验 集 的 构造 与 模型 交叉 校 验 
由 于 模型 预测 误差 的 估算 对 广义 灰色 体系 的 建 模 具有 十 分 重要 的 意义 ， 所 以 ， 如 何 构造 
预测 或 校 验 集 ， 以 有 理 且 有 效 地 获得 预测 误差 ， 也 是 目前 广义 灰色 体系 建 模 研究 的 一 个 重要 
问题 。 

一 般 说 来 ， 如 果 所 有 的 样本 足够 多 ， 最 好 是 将 数据 分 为 三 组 ， 一 个 训练 集 ， 一 个 校 验 集 
和 一 个 预测 集 。 训 练 集 的 数据 用 来 训练 计算 机 ， 建 立 模 型 ， 校 验 集 的 数据 则 用 来 校 验 所 得 模 
型 ， 即 估计 预测 误差 和 进行 模型 选择 ;预测 集 数据 则 最 好 在 建 模 及 模型 校 验 过 程 中 始终 不 介 
和 人 计算， 待 模型 最 终 选 定 后 再 用 它们 来 评价 所 建 模型 的 实际 预测 误差 以 确定 其 泛 化 能 力 。 对 
于 这 三 个 数据 集 大 小 的 选择 ， 目 前 亦 无 定论 ， 文 献 [298] 的 建议 是 ， 训 练 集 占 50% ， 校 验 
集 占 25%， 预 测 集 也 占 25%. 

然而 ， 在 化 学 或 生物 的 科研 实践 中 ， 样 本 的 收集 一 般 不 太 容 易 ， 而 且 样 本 数 一 般 都 还 小 

于 变量 数 ， 要 做 到 将 数据 分 为 三 组 的 做 法 显然 难以 实现 。 所 以 ， 现 在 一 般 是 将 数据 分 为 两 
组 ， 一 组 训练 集 ， 一 组 预测 集 。 这 样 的 分 法 实际 也 不 容易 ， 一 般 是 训练 集 的 样本 占 7596. 
因为 如 训练 集 样 本 太 少 ， 将 致使 训练 出 来 的 模型 难于 真正 代表 样本 中 所 含 信 息 ， 也 容易 导致 
模型 的 过 拟 合 或 不 准确 ， 图 6-111 就 示 出 了 这 样 一 个 例子 。 从 图 可 以 看 出 ， 当 样本 数 不 够 
时 ， 佑 计 模 型 与 实际 模型 很 容易 产生 偏 或 是 过 拟 合 。 所 以 ， 如 何 来 有 理 且 有 效 地 进行 训练 集 
和 预测 集 的 辟 分 是 一 个 值得 研究 的 问题 。 如 何 挑选 具有 代表 性 的 样本 构成 训练 集 (有 时 亦 称 
校正 集 ) 来 建立 模型 ， 即 训练 集 样本 的 代表 性 问题 ， 是 该 技术 的 核心 问题 9] 。 有 代表 性 的 
校正 集 样本 对 广义 灰色 校正 模型 的 影响 主要 体现 在 模型 的 适应 性 和 预测 性 能 ， 以 及 模型 的 精 
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简 程 度 。 简 约 的 模型 不 仅 可 以 节约 投入 成 本 ,而 且 有 利于 不 同 仪器 之 间 的 模型 传递 。 以 下 我 
们 将 对 训练 集 和 预测 集 的 臂 分 方法 给 出 简要 介绍 。 























训练 集 样本 数 不 够 造成 模型 过 拟 合 或 不 准确 的 一 个 示例 
Ca) 其 中 粗 线 为 样本 数 为 15 所 得 的 回归 模型 ， 细 线 为 真实 模型 ， 
(b) 其 中 粗 线 为 样本 数 为 100 所 得 的 回归 模型 ， 细 线 为 真实 模型 








1. 随机 选择 法 

随机 选择 法 (random selection, RS 法 ) 即 随机 选取 一 定数 量 的 样本 〈 一 般 选 75%%) 组 
成 训练 集 [800-~3021 。 这 种 选取 完全 是 根据 随机 选择 的 原则 来 选择 训练 集 ， 目 的 就 在 于 使 所 选 
取 的 训练 集 样 本 具有 整体 代表 性 。 这 种 训练 集 组 成 方法 简单 ， 只 遵循 随机 采样 原则 ， 不 需要 
采用 特别 方法 进行 数据 挑选 。 但 是 ， 这 种 方法 一 般 要 求 样 本 量 较 大 ， 且 样本 分 布 较为 均匀 
才 行 。 

2. KS 法 

KS (Kennard-Stone) 法 是 把 所 有 的 样本 都 看 作 训 练 集 候选 样本 ， 依 次 从 中 挑选 部 分 样 
本 进入 训练 集 G303,3%] 。 首 先 ， 选 择 欧 氏 距 离 最 远 的 两 个 向 量 对 进入 训练 集 ; 定义 di 为 从 第 
i 个 样本 向 量 到 j 样本 向 量 的 欧 氏 距离 ， 假 设 已 有 & 个 样本 向 量 被 选 进 训 练 集 ， 这 里 & 小 于 
样本 总 数 n， 人 针对 第 wv 个 待 选 样本 向 量 ， 定义 最 小 距离 : 
































Drs = min(di,, d», ， ees dru) (6-194) 

















所 有 待 选 样本 向 量 的 Dj, 最 大 值 : Dne max (Di)， 拥 有 最 大 最 小 距离 D meo 的 那个 待 选 
样本 进入 训练 集 。 依 此 类 推 ， 达 到 要 求 的 训练 集 样 本 的 数目 。 其 余 样 本 用 作 预 测 或 校 验 集 。 
该 方法 优点 是 能 保证 训练 库 中 样本 按照 空间 距离 分 布 均匀 ， 缺 点 是 需要 进行 数据 转换 和 
计算 样本 两 两 空间 距离 ， 计 算 量 大 。 

3. 基于 联合 X-Y 距离 的 样本 臂 分 法 

基于 联合 XY 距离 的 样本 臂 分 法 (SPXY 法 ) 由 Galvao 等 首先 提出 [555 ， 它 是 在 KS 
法 的 基础 上 发 展 而 来 的 ， 实 验证 明 ，SPXY 法 能 够 有 效 地 履 盖 多 维 向 量 空间 ， 从 而 可 改善 所 
建 模型 的 预测 能 力 。SPXY 法 在 样品 间 的 距离 计算 时 将 xz 变量 和 变量 同时 考虑 在 内 ， 其 距 
离 公式 如 下 : 
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SPXY 法 的 逐步 选择 的 过 程 和 KKS 法 相似 ， 但 用 wo 代替 了 wz， 同时 为 了 确保 
样本 在 x My 空间 具有 相同 的 权重 ， 将 deoo 和 wp 分别 除 以 它们 在 数据 集中 的 最 大 
值 ， 因 此 标准 化 的 zy 的 距离 公式 为 : 








d,Cb.q) 
maxy.qe(.N] de Cpsq) 


dy(p ,9) 
maxyp,ge[1,N] d y Cpsq) 





di, (p.q) = pq € [1 N]] 








在 此 值得 指出 的 是 ， 上 述 样本 臂 分 法 一 般 要 求 样本 量 较 大 ， 如 果 样 本 量 很 小 ， 所 得 结果 
并 不 十 分 可 靠 。 所 以 ， 为 了 最 有 效 地 使 用 所 得 的 样本 ， 统 计 学 家 们 又 提出 了 交叉 校 验 的 方 
法 [53] 。 这 正 是 我 们 将 要 讨论 的 问题 。 
(四 ) 交叉 校 验 的 几 种 方法 

如 前 所 述 ， 交 叉 校 验 的 目的 就 是 要 最 有 效 地 使 用 所 得 的 样本 ， 其 主要 目标 就 是 要 充分 利 
用 样本 所 得 信息 ， 即 不 必 有 预先 将 样本 进行 训练 集 和 预测 集 的 辟 分 ， 而 是 在 进行 建 模 的 同时 进 
行 样本 校 验 ， 主 要 目的 是 据 此 以 获得 最 佳 回 归 模 型 。 这 类 方法 在 潜 变 量 建 模 中 的 选择 最 佳 潜 
变量 数 中 得 到 了 十 分 广泛 的 应 用 。 

1. 留 一 交叉 检验 法 与 多 折 交 叉 校 验 

(1) 留 一 交叉 校 验 法 (leave-one-out-cross-validation) ”最早 提出 留 一 交叉 校 验 法 的 是 
StoneL30%6,307] 。 此 法 的 主要 思路 就 是 充分 利用 所 得 样本 的 信息 ， 在 训练 样本 的 同时 也 同步 进 
行 样 本 预测 ， 以 多 次 建 模 来 代替 一 次 建 模 ， 使 建 模 与 预测 校 验 得 以 交叉 进行 ， 故 有 交叉 校 验 
之 称 。 图 6-112 给 出 了 留 一 交叉 校 验 法 的 计算 过 程 示意 图 。 从 图 可 以 看 出 ， 对 于 有 个 样本 
的 数据 ， 在 第 一 次 建 模 时 ， 先 只 用 前 (n 一 1) 个 样本 建 模 ， 将 第 ”个 样本 留 出 作 预 测 用 ， 
这 样 就 得 到 了 第 一 个 预测 误差 ， 记 为 e,; 在 第 二 次 建 模 时 ， 则 用 前 (n 一 2) 个 样本 再 加 上 
& n 个 样本 建 模 【同样 为 用 (2 一 1) 个 样本 建 模 ]， 将 第 (n 一 1) 个 样本 留 出 作 预 测 用 ， 这 
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EP 留 一 交叉 校 验 法 的 计算 过 程 示意 图 
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样 就 得 到 了 第 二 个 预测 误差 ， 记 为 ên 如 此 逐步 进行 ,直到 做 到 次 ， 则 用 后 (n 一 1) 
个 样本 建 模 ， 将 第 1 个 样本 留 出 作 预 测 用 ， 这 样 就 得 到 了 第 ”个 预测 误差 ， 记 为 el 。 这 样 ， 
就 对 所 有 样本 都 做 了 一 次 预测 ， 然 后 ， 计 算出 该 数据 集 的 预测 误差 均 方 根 (root of mean 


n 
Ze 


il 











square of errors of prediction, RMSEP), BH 








7 ， 为 最 佳 潜 变 量 数 的 选择 备用 。 

下 面 ， 我 们 将 讨论 如 何 采 用 留 一 交叉 校 验 法 来 进行 主 成 分 回归 中 最 佳 潜 变 量 数目 的 运 
算 。 如 前 讨论 可 知 ， 因 得 分 矩阵 工 所 收集 的 特征 得 分 矢量 都 相互 正 交 ， 后 引入 的 变量 不 受 
已 引入 变量 相关 性 影响 ， 可 按 其 对 应 特征 值 大 小 〈 特 征 值 越 大 所 对 应 该 潜 变量 的 所 含 信息 越 
多 ) 依次 引入 。 这 样 就 使 主 成 分 回归 的 潜 变 量 选择 变 得 十 分 方便 。 有 具体 过 程 如 下 : 如 该 数据 
集 含 m 个 变量 ， 则 取 i 二 1，…，m; 逐步 进行 下 述 的 循环 运算 。 

(QD i 二 1， 先 取 一 个 具有 最 大 特征 值 的 潜 变 量 来 建 模 ， 采用 留 一 法 交叉 校 验 法 来 进行 预 












































测 误差 的 计算 ， 得 出 该 数据 集 的 预测 误差 ， 即 | [2097 | 。 ， 并 记录 留用 。 
n i=l 


© ;一 2， 继 续 取 两 个 具有 最 大 特征 值 的 潜 变量 来 建 模 ， 采 用 留 一 法 交叉 校 验 法 来 进行 














预测 误差 的 计算 ， 并 求 出 该 数据 集 的 预测 误差 ， 即 | [2097 | 。 ， 并 记录 留用 ， 继 续 进 
cu 
行 循环 运算 ， 直 至 i—m. 
O 用 主 成 分 数 对 预测 误差 作 图 ， 并 找到 最 低 点 ， 该 点 所 对 应 的 洪 变 量 个 数 就 是 我 们 需 
求 得 的 最 佳 主 成 分 数 参见 图 6-113)。 
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交叉 校 验 确定 最 佳 主 成 分 数 的 示意 图 


























一 般 说 来 ， 采 用 交叉 校 验 确定 最 佳 主 成 分 数 都 可 以 找到 一 个 最 小 点 ， 这 说 明 在 对 广义 灰 
色 体 系 建 立 校正 模型 时 的 确 存在 过 拟 合 情况 。 但 有 时 也 会 出 现 多 个 极 小 和 别 的 情况 ， 这 也 说 
明 广 义 灰 色 体 系 建 模 有 时 并 不 简单 。 

(2) 多 折 交 又 校 验 (multifold-cross-validation) 由 于 留 一 交叉 校 验 法 需 对 每 一 个 留 出 
的 样本 都 要 建 一 个 模型 ， 计算 有 多 少 个 样本 就 需 建 多 少 个 模型 ,计算 量 不 小 ; 同时 ， 每 次 建 
模 所 用 样本 量 为 (n 一 1)， 而 被 预测 的 样本 只 一 个 ， 还 有 训练 集 样本 过 多 之 嫌 ， 故 有 人 提出 
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T Up Ed MN 
此 法 的 主要 思路 就 是 先 将 样本 集 分 成 几 个 小 组 ， 每 次 留 出 一 个 小 组 的 样本 不 参加 建 模 ， 
仅 为 计算 预测 误差 所 用 ， 而 只 用 其 余 样 本 建 模 ， 这 样 就 既 可 增加 预测 样本 的 个 数 ， 又 达到 减 
小 计算 量 的 效果 。 图 6-114 给 出 了 多 折 交 又 校 验 的 计算 过 程 示意 图 。 从 图 可 以 看 出 ， 对 于 有 
个 样本 的 数据 ， 先 将 其 按 某 种 原则 等 分 成 为 上 组 ， 在 第 一 次 建 模 时 ， 先 只 用 前 (&-1) 组 
"m 《在 图 中 用 粗 线 框 标 出 )， 而 将 第 & 组 的 样本 留 出 作 预 测 用 ， 这 样 可 得 到 了 第 & 组 


n/k 


每 个 样本 的 预测 误差 并 对 其 平方 求 和 ， 记 为 De; 在 第 二 次 建 模 时 ， 则 用 前 (R—2) 个 
i 一 1 

样本 组 再 加 上 第 & 组 的 样本 建 模 [同样 为 用 (& 一 1) 个 组 样本 建 模 ]， 将 第 (k 一 1) 组 的 样 

本 留 出 作 预 测 用 ， 这 样 就 得 到 了 第 二 组 所 有 样本 的 预测 误差 ;如 此 逐步 进行 ， 直到 做 到 ^ 

次 ， 则 用 后 (CR 一 1) 个 组 的 样本 建 模 ， 将 第 1 组 的 所 有 样本 留 出 作 预 测 用 ， 这 样 就 得 到 了 第 

1 组 所 有 样本 的 预测 误差 。 这 样 ， 就 对 所 有 样本 都 做 了 一 次 预测 ， 然 后 ， 计 算出 该 数据 集 的 































































































预测 误差 ， 即 


























< 用 前 (三 1 ) 块 建 模 来 预测 第 块 的 Y, block 
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多 折 交 叉 校 验 法 的 计算 过 程 示意 图 














有 关 如 何 采用 多 折 交 义 校 验 法 来 进行 主 成 分 回归 中 最 佳 潜 变量 数目 的 运算 ,与 留 一 交叉 
校 验 法 相同 ， 在 此 不 再 重复 讨论 。 多 折 交 义 校 验 法 由 统计 学 家 提出 ， 现 已 在 化 学 计量 学 和 生 
物 信息 学 中 得 到 了 广泛 的 应 用 。 实 际 上 ， 对 于 只 有 几 十 个 或 几 百 个 样本 的 体系 ， 一 般 大 都 采 
用 五 折 至 十 折 的 交叉 校 验 办 法 来 进行 最 佳 浴 变量 数目 的 选择 。 值 得 提出 的 是 ， 采 用 多 折 交 又 
校 验 时 ， 虽 每 个 样本 都 被 遍历 了 ,但 样本 的 分 布 是 有 偏 的 。 例 如 ,我们 有 100 个 样本 ， 如 果 
采用 十 折 交 又 校 验 办 法 ， 此 时 每 折 的 样本 数 为 10 个 ， 而 从 100 个 样本 抽取 10 个 样本 进行 校 
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折 交 叉 校 验 办 法 只 做 了 这 么 多 种 情况 中 的 10 种 情况 ， 很 容易 引起 有 偏 的 校 验 结果 ， 值 得 引 

另外 ， 对 于 多 折 交 叉 校 验 法 ， 折 数 的 选择 也 是 一 个 重要 参数 ， 但 笔者 认为 更 重要 的 应 该 
是 分 组 方法 ， 如 果 分 组 方法 不 当 ， 将 会 引起 一 些 有 偏 的 校 验 结果 ， 特 别 如 果 在 样本 集中 还 含 
有 一 些 奇 异 点 时 ， 分 组 将 更 为 困难 ， 有 关 这 些 问题 ， 将 在 适当 的 时 候 逐 步 加 以 阐述 。 为 克服 
多 折 交 叉 校 验 法 的 有 偏 校 验 结果 ，Monte-Carlo 交叉 校 验 似 是 一 个 不 错 的 交叉 校 验 的 方法 ， 
这 正 是 下 面 将 要 讨论 的 问题 。 

2. Monte-Carlo 交叉 校 验 

Martens 曾 指 出 [313] ， 留 一 交叉 校 验 法 经 常 有 可 能 引起 过 拟 合 ， 它 对 预测 误差 的 估计 通 
常 是 不 够 的 。 同 时 ， 很 多 化 学 计量 学 者 也 感受 到 了 留 一 交叉 校 验 法 的 类 似 问 题 [314,3151 。 
此 ， 在 使 用 留 一 交叉 校 验 法 时 需要 特别 小 心 ， 而 且 有 些 化 学 计量 学 者 还 对 留 一 交叉 校 验 法 进 
行 了 一 些 改 进 [316.317] 。 事 实 上 ， 留 一 交叉 校 验 法 (CV1) 选择 的 模型 被 证 明 是 渐 近 不 正确 
的 B18~320] 。 它 倾向 选择 一 个 比 正确 模型 变量 要 多 的 模型 ， 因 此 常常 导致 模型 的 过 拟 合 。 粗 
略 而 又 直观 地 说 ，CVi 有 这 样 的 缺陷 原因 在 于 它 似乎 强调 得 更 多 的 是 校正 而 非 预测 。 对 于 每 
一 次 的 分 划 ， 多 达 (n 一 1) 个 样本 用 于 训练 校正 ， 仅 有 一 个 样本 用 于 预测 ， 训 练 校 正 对 
CV: 的 影响 远 远 大 于 预测 对 CVi1 的 影响 ， 这 样 CV1 选 择 模 型 更 多 体现 的 是 训练 校正 的 特点 。 
众所周知 ， 对 于 校正 ， 变 量 越 多 模型 拟 合 越 好 ， 这 就 造成 CV1 易 于 选择 变量 多 的 模型 。 为 
改善 这 种 状况 ， 自 然 想到 的 就 是 增加 校 验 样本 的 个 数 ， 如 取 2 个 校 验 样本 或 更 多 ， 这 样 能 不 
能 改进 交叉 校 验 法 的 效果 呢 ? 

解决 这 样 的 问题 似乎 很 简单 ， 即 我 们 可 以 采用 留 多 点 样本 来 进行 校 验 ， 如 每 次 建 模 时 留 
2 个 、3 个 或 更 多 来 就 可 解决 问题 。 然 而 ,事情 并 非 如 此 简单 。 在 此 ,将 以 留 3 个 样本 方法 
为 例 加 以 说 明 。 假 设 有 100 个 样本 ， 如 果 采 用 留 3 法 来 做 ， 即 每 次 建 模 时 留 3 个 样本 进行 交 
叉 校 验 。 但 是 ， 这 里 存在 两 个 问题 ，@9 样 本 如 何 留 ， 是 随机 取 还 是 有 规律 地 取 ? @ 需 要 建 模 
多 少 次 ,来 保证 校 验 样本 的 遍历 性 ? 对 于 留 3 法 ， 每 次 建 模 时 留 3 个 样本 进行 交叉 校 验 ， 此 
时 从 100 个 样本 抽取 3 个 样本 进行 核验 的 抽取 方式 将 有 Cho = OSX S — 181700 多 种 ， 
这 就 意味 着 如 果 我 们 想 要 保证 对 所 有 3 个 校 验 样 本 的 遍历 性 ， 我 们 需要 建 模 161700 次 。 对 
于 100 个 样本 的 情况 ， 多 留 一 个 都 会 使 建 模 次 数 呈 指数 形式 增加 。 显 然 ， 保 证 校 验 样 本 的 遍 
历 性 对 于 留 多 法 不 现实 。 

为 解决 这 样 的 问题 ， 采 用 Monte-Carlo 交叉 校 验 (MCCV) 可 能 是 一 种 简单 而 又 有 效 的 
途径 [24 。MCCV 的 思路 很 简单 ， 即 对 于 及 个 样本 的 情况 ， 在 每 次 建 模 时 ， 随 机 地 将 样 
本 分 为 两 个 部 分 ， 分 为 一 个 校正 集 [S.GO ] 和 一 个 校 验 集 LS.G)] 。 校 正 集 LS.G)] 有 个 
样本 ， 校 验 集 LS.G)] 有 nn, 个 样本 ， 一 般 说 来 ,zzv， 并 使 得 no non. AIER E 
模 N G=1, 2, =, NO 次 。 由 于 采用 了 Monte-Carlo 采样 ， 则 可 以 保证 采样 的 代表 性 和 
无 偏 性 。 当 然 ， 建 模 次 数 在 此 是 一 个 很 重要 的 参数 ， 一 般 认 为 ， 如 能 保证 建 模 次 数 在 N = 
n2 即 可 。 这 样 ， 通 过 Monte-Carlo 采样 ， 既 解决 了 采样 代表 性 和 无 偏 性 的 问题 ， 又 避免 了 建 
模 次 数 以 指数 形式 增长 的 问题 。 

根据 以 上 讨论 ，MCCYV 算法 可 采用 如 下 步骤 实现 。 

CD 对 于 每 个 主 成 分 的 引入 ， 取 N = 二 n?， 重 复 下 述 、@ 两 步 ， 并 计算 NN 次 : 

CD 将 nn 个 样本 随机 取 一 定 百 分 比 的 样本 作为 校正 集 ， 余 下 为 校 验 集 ; 
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© 用 训练 集 样本 建 模 ， 用 校 验 集 样本 来 计算 该 模型 的 预测 误差 均 方 根 。 
(2) 经 N 次 重复 建 模 并 计算 出 校 验 集 的 预测 误差 后 ，MCCYV 模型 选择 的 准则 可 定义 
如 下 : 
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MCCV 就 是 从 & 个 具有 不 同 主 成 分 数 的 模型 中 选 出 MCCV R) 达到 最 小 的 那个 ， 记 为 
k*”，k“* 就 是 模型 应 该 含有 的 PCR 或 PLS 的 组 分 数 。 

需 注 意 的 是 ，MCCYV 借助 于 Monte-Carlo 采样 ， 使 得 留 多 交叉 校 验 法 的 计算 量 有 了 根 
本 性 的 减少 。 另 外 ， 从 理论 上 讲 ， 用 于 检验 的 样本 越 多 ， 所 需 重复 的 次 数 也 应 相应 增加 ， 而 
N =n? Æ RWE MCCV 选择 的 模型 与 遍历 的 留 多 交叉 校 验 法 (CV, 选择 得 一 样 好 。 同 时 ， 
Shao L9 YS EB] T TE n,— 99 I nv /n—1 的 条 件 下 , CV ,选择 正确 模型 的 概率 趋 于 1。 正 是 在 
这 个 意义 下 , CV, 准则 是 渐 近 相合 的 。 对 于 一 个 样本 有 限 的 数据 ， 在 一 定 范 围 内 每 次 划分 
用 于 检验 的 样本 数 增 加 时 ， 选 到 正确 模型 的 概率 也 会 增加 。 

3. 重复 双重 交叉 校 验 

无 论 是 多 折 交 叉 校 验 或 是 Monte-Carlo 交叉 校 验 (MCCV)， 为 了 最 大 限度 地 利用 有 限 
的 样本 ， 我 们 只 是 将 数据 分 为 训练 集 和 校 验 集 。 这 样 在 选择 模型 的 同时 就 得 到 了 预测 误差 的 
估计 ， 但 是 或 多 或 少 都 会 造成 对 预测 误差 的 低估 [53183221 。 解 决 这 一 问题 的 策略 就 是 使 用 双 
重 交 叉 校 验 (double cross-validation) 7715 9093231, ， 也 就 是 将 模型 的 选择 与 预测 误差 的 估计 
分 开 进 行 ， 下 面 首先 介绍 最 简单 的 重复 双重 交叉 校 验方 法 留 一 重复 双重 交叉 校 验 法 的 实 
施 过 程 。 

对 于 有 ?7 个 样本 的 数据 ， 在 第 一 次 建 模 时 ， 先 将 第 ”个 样本 留 出 作 预 测 用 ， 用 前 (x 一 
D 个 样本 做 交叉 校 验 ， 得 到 最 优 的 模型 参数 后 用 于 第 个 样本 的 预测 ， 这 样 就 得 到 了 第 一 
个 预测 误差 ， 记 为 6; 在 第 二 次 建 模 时 ， 则 用 前 (2z 一 2) 个 样本 再 加 上 第 2” 个 样本 做 交叉 
校 验 并 得 出 最 优 模型 参数 ， 然 后 用 于 将 第 (n 一 1) 个 样本 的 预测 ， 这 样 就 得 到 了 第 二 个 预 
测 误差 ， 记 为 6,-1; 如 此 逐步 进行 ， 直 到 做 到 ”次 ， 则 用 后 (x 一 1) 个 样本 做 交叉 校 验 并 
优化 模型 ， 然 后 用 于 第 1 个 样本 的 预测 ， 这 样 就 得 到 了 第 ”个 预测 误差 ， 记 为 sl 。 最 后 ， 

















































































































就 可 以 计算 出 该 数据 集 的 预测 误差 均 方 根 ， 即 


按照 同样 的 过 程 ， 可 以 将 多 折 交 叉 校 验 改造 为 多 折 双 重 交 叉 校 验 。 而 将 Monte-Carlo 交 
叉 校 验 与 双重 交叉 校 验 融 合 到 一 起 后 得 到 的 重复 双重 交叉 校 验 [324 ， 综 合 了 两 种 方法 的 优 
势 ， 能 够 给 出 详细 的 有 关 预 测 误差 的 信息 。 

重复 双重 交叉 校 验 采 用 如 下 步骤 实现 : 

CD 首先 将 个 样本 随机 划分 为 校正 集 和 测试 集 (参见 图 6-115); 

D 再 将 校正 集 划 分 为 训练 集 和 校 验 集 ， 用 训练 集 建 立 不 同 复杂 度 的 模型 ， 用 校 验 集 验 
证 模型 并 选取 最 优 模型 ， 确 定 最 优 模型 参数 ; 

C) 采用 最 优 模型 参数 所 建 模型 来 预测 测试 集 样 本 ， 给 出 预测 值 并 计算 预测 误差 均 方 根 ; 

@ 重复 步骤 中 至 @N 次 ， 给 出 预测 误差 均 方 根 的 分 布 ; 

O 根据 N 次 重复 所 得 的 最 优 模型 主 成 分 数 的 最 高 频 度 值 最 终 确定 模型 主 成 分 数 。 

注意 到 重复 双重 交叉 校 验 法 是 随机 做 了 N 次 ， 故 采用 重复 双重 交叉 校 验 法 得 到 的 是 预 
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测 误差 均 方 根 的 分 布 图 (参见 图 6-116)。 由 图 可 知 ， 相 比 于 简单 的 交互 检验 ， 此 方法 可 以 得 
到 更 加 详细 而 全 面 的 预测 误差 估计 信息 ， 当 然 ， 此 法 带 来 的 问题 就 是 计算 开销 的 增 大 ， 对 于 
样本 较 多 的 情况 ， 所 需 时 间 有 时 太 长 。 
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根据 最 佳 模 型 的 主 成 分 根据 N 次 预测 误差 结果 最 
分 布 频 度 图 确定 最 佳 模 终 得 到 预测 误差 均 方 根 分 
型 所 需 主 成 分 数 布 图 以 评价 模型 









































重复 双重 交叉 校 验 的 计算 过 程 示意 图 
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典型 的 预测 误差 均 方 根 分 布 图 


三 、 广 义 灰 色 分 析 体系 的 常用 多 元 校正 方法 


在 正式 进入 方法 的 讨论 之 前 ， 似 还 有 必要 对 我 们 面临 的 所 需 分 析 的 数据 特性 给 出 更 明确 
的 说 明 。 图 6-117 示 出 了 一 个 典型 的 近 红 外 光谱 数据 集 ， 图 中 的 每 一 个 光谱 都 代表 了 不 同 的 
样本 。 在 分 析 之 前 ， 粗 看 这 些 不 同样 本 的 光谱 就 明显 可 知 ， 它 们 不 但 相似 度 很 高 ， 而 且 每 个 
样本 所 对 应 的 变量 数 ， 即 光谱 的 波长 数目 〈 或 波 数 点 数 ) 都 大 大 超过 样本 数 ， 即 mx (变量 
JO >n 〈 样 本 数 )。 对 于 这 些 特点 ， 我 们 可 以 简单 地 得 出 两 个 结论 : 外 光谱 相似 度 很 高 ， 
即 这 些 光 谱 的 共 线 性 很 严重 ， 其 化 学 秩 很 难 准确 确定 ;外 模型 变量 数 大 大 超过 样本 数 ， 其 过 
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拟 合 风险 很 高 。 正 是 这 两 个 特点 ， 使 得 对 图 6-117 示 出 了 近 红 外 光谱 量 测 体系 的 多 元 校正 变 
得 十 分 困难 ， 因 此 时 校正 矩阵 的 协 方差 阵 CX XO 将 严重 亏 秩 ， 不 可 能 直接 采用 我 们 在 白色 
分 析 体 系 解 析 的 最 小 二 乘法 求解 ， 需 采用 上 岭 回 归 或 潜 变 量 回 归 方 法 。 同 时 ， 由 于 广义 灰色 分 
析 体 系 的 模型 ， 即 y =f) 中 的 f(. ) 未 知 ， 线 性 模型 y 二 XB 只 是 一 种 线性 通 近 ， 所 以 ， 
在 介绍 广义 灰色 分 析 体系 的 多 变量 校正 方法 时 ， 非 线性 校正 方法 也 十 分 重要 ， 其 中 特别 是 近 
年 来 在 机 器 学 和 统计 学 中 发 展 的 一 些 新 方法 也 应 成 为 介绍 的 主要 对 象 。 
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一 个 典型 的 近 红 外 光谱 数据 集 


所 以 ， 本 节 我 们 将 以 主 成 分 回归 与 偏 最 小 二 乘 回归 为 起 点 ， 并 在 此 基础 上 ， 相 继 介绍 可 
解决 非 线 性 问题 的 人 工 神经 网 络 校 正方 法 ， 使 读者 对 广义 灰色 分 析 体 系 的 多 变量 校正 方法 先 
有 一 个 基本 了 解 。 

(一 ) 主 成 分 与 偏 最 小 二 乘 回归 

主 成 分 分 析 的 方法 由 Hotelling 于 1933 年 提出 ，1965 年 ，Massy 根据 主 成 分 分 析 的 思 
想 提出 了 主 成 分 回归 方法 。 如 今 主 成 分 回归 方法 已 经 被 广泛 采用 ， 成 为 回归 分 析 中 较 有 影响 
的 估计 方法 53253 。 

主 成 分 回归 首先 将 光谱 信号 或 数据 抢 阵 X. 进行 奇异 值 分 解 ， 分 解 成 一 系列 正 交 的 变量 ， 





















































X —USVT +E —TPT +E (6-195) 


UB. E 代表 光谱 数据 矩阵 X 主 成 分 分 解 后 的 残 差 矩阵 ;US =T，V 王 了 。 

所 谓 主 成 分 回归 ， 就 是 我 们 只 取 其 主 成 分 ， 即 取 大 特征 值 所 对 应 的 特征 得 分 矢量 T。， 
具体 取 多 少 主 成 分 将 采用 本 章 前 述 的 交叉 校 验方 法 来 定 。 然 后 ， 用 Te BARI R AGEE E X, 
并 直接 以 了 .代替 数据 矩阵 X 进行 回归 分 析 ， 以 获得 回归 向 量 Becr, HB 





Becr 一 (TIT.) TTy (6-196) 





AP, y 为 响应 变量 。 在 新 样 的 光谱 数据 或 信号 zwew 上 应 用 此 回归 向 量 预 测 新 样本 的 目 
标 分 析 物 性 质 的 结 
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主 成 分 回归 通过 对 光谱 或 数据 矩阵 进行 分 解 ， 从 而 确保 分 解 后 的 数据 不 再 是 奇异 的 ， 最 终 克 
服 多 元 线性 回归 方法 中 的 亏 秩 的 局 限 ， 使 得 多 元 校正 得 以 进行 。 然 而 ， 由 于 在 进行 PCA 分 
解 时 没有 考虑 到 光谱 数据 X 和 目标 分 析 物 性 质 y 之 间 的 关系 ， 其 中 心目 的 是 将 数据 降 维 ， 
将 原 变量 进行 变换 ， 使 少数 几 个 新 变量 是 原 变 量 的 线性 组 合 ， 同 时 ， 这 些 变 量 要 尽 可 能 多 地 
表征 原 变 量 的 数据 特征 而 不 丢失 信息 。 但 是 主 成 分 回归 方法 也 存在 不 足 ， 即 其 与 因 变 量 y 
之 间 的 关系 不 直接 ， 而 偏 最 小 二 乘法 就 是 基于 以 上 思想 提出 的 。 

为 了 克服 PCR 多 元 校正 中 的 缺陷 ， 偏 最 小 二 乘 回归 (PLS) 作为 化 学 计量 学 中 应 用 最 
广泛 的 一 种 多 元 校正 方法 ， 可 以 被 用 来 捕获 光谱 数据 和 和 目标 分 析 物 性 质 y 之 间 的 最 大 方 
差 ， 在 对 光谱 或 数据 矩阵 进行 分 解 的 同时 考虑 数据 与 目标 分 析 物 性 质 之 间 的 关系 。 值 得 提出 
的 是 ， 近 年 来 对 PLS 算法 研究 很 多 ，Martin[L326 对 常见 的 九 种 PLS 算法 比较 中 ， 改 进 核 偏 
最 小 二 乘 算法 以 良好 的 算法 稳定 性 和 快速 的 计算 速度 而 被 强烈 推荐 使 用 。 在 此 将 主要 介绍 改 
进 核 偏 最 小 二 乘 算 法 (Gmproved kernel partial least squares) ， 其 整个 计算 过 程 如 下 。 

在 此 我 们 只 考虑 PLSI 算法 。 在 经 典 的 偏 最 小 二 乘 算法 中 , X 矩阵 和 yy 向 量 都 要 减 去 计 
算出 的 主因 子 向 量 ， 以 得 到 计算 下 一 个 主因 子 的 残 差 阵 。Lindgrent325 1 等 提出 了 核 偏 最 小 二 
乘 算法 ， 利 用 ”向量 减 去 计算 出 的 主因 子 向 量 是 可 选 的 ， 只 从 X 矩阵 中 减 去 计算 出 的 主因 
子 向 量 ， 这 样 加 快 了 计算 的 速度 。DayalL3281 等 则 进一步 证 明 X 矩阵 和 >y 向 量 中 只 要 有 一 个 
减 去 计算 出 的 主因 子 向 量 即 可 ， 得 到 了 一 种 改进 核 偏 最 小 二 乘 算法 。 为 了 在 后 面 算法 中 表述 
TE, BE X EEA y 向 量 都 已 进行 过 列 中 心 化 处 理 。 

改进 核 偏 最 小 二 乘 算法 具体 计算 步骤 如 下 : 

(D 计算 协 方差 矩阵 XITy 。 

O 令 w, 二 XTy， 并 对 w, 进行 标准 化 ( 归 一 化 ) 处 理 : w,—.w,/ l wa llo 

© 按 下 式 计算 能 从 原始 矩阵 立 中 直接 算出 得 分 和 矩阵 的 权重 矩阵 尺 的 一 列 r。: 
















































































了 二 (6-197) 


= ze 三 pl ave Lig 
T, —W, Pi Wari po» Waf2 DaWar .al a 二 1 


D 由 r, 计 算得 分 矢量 1t。(X 的 得 分 矩阵 工 的 一 列 ) : ta 一 Xr,。 

C H t ARE p. CX 的 载荷 矩阵 P 的 一 列 ) : p, —XTt,/G1t). 

© Hr Mt q (gq 向 量 的 第 a ED: qa 二 (XTy)/ (tdt,)。 

D 更 新 协 方差 矩阵 (XTy) ori — OXTy)2a — paqa (tlts。)， 返 回 到 第 @ 步 计算 下 一 个 主 
因子 。 

@ 计算 完 所 有 主因 子 ， 可 以 通过 下 式 得 到 回归 系数 ; 




















Bris 一 Ru (6-198) 


部 分 重要 证 明 介 绍 如 下 。 
中 证 明 X EEM y 和 矩阵 中 只 须 有 一 个 减 去 计算 出 的 主因 子 向 量 即 可 。 
要 证 明 此 结果 ,人 须 得 到 如 下 表达 式 





























XI yat =XLyat =¥XL1ya 
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将 Xd+iye+l 展 开 可 以 得 到 如 下 结果 


XT Yan 一 (X。 —t.pi)TCy, — tq?) 
=XTya —XTt q? — patdya + pagitdt, (6-199) 
pa Fl qa PI ELTE F RTE 
Xapa —t,/tit, (6-200) 
Yaqa —t,/tit, (6-201) 


由 式 (6-200) 和 式 (6-201) 可 以 得 到 
Xit, = Tta) pa (6-202) 
tiya —q4 (tfta) (6-203) 
将 式 (6-202) 代入 式 (6-199) 中 


Xaiyan —XIya — paqd (tat?) — patdya tpagdtit, 
—Xluy, — patlya —UXT — pat?) ya —(X, — tap?) ya 
—Xly, (6-204) 
将 式 (6-203) 代入 式 (6-199) 中 
XIa yan =X Tya — X7Tt,qd — paqd (tlt,) + paq1tit, 
—Xly. —XIt,qi 
=X} (ya 一 fagd) 
— XIyuua (6-205) 
由 式 (6-204) 和 式 (6-205) 可 得 


Xl yap —XIyoa —XIuy, 


© HEFTAR X P ECBESE BEER PE T. 的 权重 矩阵 R 公式 。 





T —XR (6-206) 
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3l 








R 可 以 由 下 列 公 式 对 
R =W(pTW) ~! (6-207) 


通过 定义 ,，R 矩阵 的 每 一 列 可 以 按 顺 序 由 如 下 公式 算出 : 




















ti 一 Xiwl —Xw, 
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to — Xows — XG-wipi?w; 


ta XO — wi pl — wspl2L(I — wa gpl wa 
所 以 有 : 
Lo Wd 


r, =(I— wipl)w,; 


rA —O —wipi — wp LT— wa pd wa 


上 述 关系 可 以 用 下 式 来 表达 

















而 B 可 以 通过 递归 的 形式 给 出 
Bia —-Bi(I—w;pl)—B; —Biw;p] =B;—rpl 
由 式 (6-210) 和 式 (6-211) 我 们 可 以 将 7x; 的 计算 方法 以 递归 形式 给 出 


Ti =W 





(6-208) 


(6-209) 


(6-210) 


(6-211) 


(6-212) 


在 利用 PCR 和 PLS 进行 多 元 校正 时 ， 具 有 适合 高 维 数据 、 共 线性 严重 和 样本 数量 小 于 
变量 数量 的 数据 、 实 质 上 对 每 个 变量 进行 加 权 处 理 等 的 优点 ， 但 是 同时 具有 以 下 一 些 缺 陷 : 
模型 的 建立 取决 于 验证 步骤， 任何 意外 的 因素 都 将 降低 多 元 校正 的 预测 效果 ;， 不 能 自动 区 分 
































和 去 除 光 谱 或 数据 中 的 不 良 变 量 等 。 因 此 ， 对 PLS 或 PCR 多 元 校正 方法 进行 改进 ， 
元 校正 的 预测 效果 ， 是 化 学 计量 学 研究 中 的 一 个 热点 。 
《二 ) 人 工 神经 网 络 















































提高 多 


人 工 神经 网 络 (ANN) 是 在 模拟 生物 神经 网 络 的 基础 上 构建 的 一 种 信息 处 理 系统 ， 它 














是 由 大 量 的 神经 元 按 茶 种 方式 连接 形成 的 智能 仿生 网 络 。 作 为 新 一 代 的 智能 型 算法 ， 





E NK 


赖 于 精确 的 数学 模型 ， 具 有 并 行 性 、 容 错 性 、 非 线性 和 自 适 应 处 理 能 力 等 特点 ， 现 已 广泛 地 
应 用 于 化 学 各 个 分 文 领域 。1943 年 ， 法 国 心理 学 家 McCulloch 和 Pitts 发 表 的 一 篇 关于 神经 
系统 的 机 能 的 文章 被 认为 是 人 工 神经 网 络 研究 的 起 点 。1957 Æ, Rosenblatt 首次 提出 感知 
机 模型 ， 并 将 自 组织 和 自学 习 的 思想 引入 到 智能 系统 ， 这 一 贡献 对 30 年 后 ANN 的 崛起 埋 
下 了 伏笔 。 到 了 20 世纪 80 年 代 ， 由 于 计算 机 技术 的 高 速 发 展 ， 加 上 Hopfield 反馈 互联 网 
络 的 提出 ， 神 经 网 络 的 发 展 达 到 一 个 新 的 高 度 。 尤 其 是 误差 反 传 (error backforward propa- 
gation, EBP) 网络 得 到 了 广泛 应 用 (参见 第 三 章 )。 在 此 基础 上 ， 又 派生 出 了 若干 前 馈 网 
络 ， 如 径 向 基 泡 数 网 络 (radical base function net，RBFN)。 最 近 的 人 研究 认为 ，RBFN 具有 
收敛 速度 快 ， 对 含 高 噪声 的 数据 显示 出 更 强 的 稳健 性 ， 能 避免 混沌 行为 而 且 结 构 简 单 等 优 
点 。 这 样 的 特点 使 得 RBFN 成 为 很 有 应 用 前 景 的 神经 网 络 [329~3。 在 这 里 ， 我 们 仅 以 












































图 6-118 为 例 ， 对 RBFN 神经 网 络 的 基本 构成 和 原理 作 简 明 扼 要 的 介绍 。 
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6-118 给 出 的 是 一 个 包含 有 输入 层 (input layer)、 隐 层 (hidden layer) 和 输出 层 
(output layer) 的 三 层 RBF 神经 网 络 。 第 一 层 为 输入 层 ， 由 输入 节点 组 成 ， 输 入 层 不 处 理 
信息 ， 只 负责 向 隐 层 输入 一 个 p 维 样本 向 量 x; 第 二 层 为 隐 层 ， 可 含有 Q(Q > 0) 个 节点 ， 

= 2 
每 个 节点 为 一 信息 处 理 单元 ， 利 用 高 斯 函数 OO —exp— 70 (给 定 中 心 c 和 宽度 o) 
将 输入 向 量 x 转化 为 一 实 值 输出 。 图 6-118 所 示 神 经 网 络 含有 4 个 隐 节 点 ， 每 个 隐 节 点 具有 
不 同 的 c 值 。 因 此 ， 输 入 向 量 c 经 过 隐 层 4 个 神经 元 的 映射 后 ， 转 化 成 为 一 个 1X4 维 的 向 
Bh [hi hshsha]. M A 维 向 量 通过 权 向 量 w 一 [wiwswswi]: 与 输出 层 相连 。 最 后 ， 对 于 输 
入 向 量 x，RBF 网 络 的 计算 结果 为 隐 层 输出 的 线性 组 合 hw。 
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输入 层 隐 层 权重 输出 层 


RBF 神经 网 络 结构 示意 图 








在 了 解 了 RBF 网络 的 基本 情况 之 后 ,下面 来 看 看 如 何 根据 已 有 数据 {x;，y;}) G=, 
2，…，7) 训练 一 个 神经 网 络 呢 ? 事实 上 ，RBF 神经 网 络 的 训练 指 的 是 如 何 确定 连接 隐 层 
和 输出 层 的 权 向 量 w， 因 为 隐 层 神经 元 的 中 心 c 和 宽度 o 需要 人 为 给 定 或 者 采用 某 个 算法 给 
出 〈 如 我 们 可 以 采用 K 均值 聚 类 确定 隐 层 中 心 c;,， i 二 1，2,，…，Q)。 这 里 我 们 介绍 最 简 
单 的 求 取 w 的 广义 逆 法 。 
假设 隐 层 节点 数 Q 取 4， 在 给 定 了 高 斯 洱 数 的 参数 c 和 o 后 ， 对 于 每 一 个 样本 工 ， 可 以 
将 其 转化 为 一 个 4 维 行 向 量 。 因 此 ,nn 个 样本 经 隐 层 神经 元 处 理 后 ， 将 会 得 到 一 个 nX4 的 
EEH, 53). XXn 个 样本 的 实际 量 测 值 为 x X1 的 向 量 y。 为 了 使 训练 误差 达到 最 小 ， 我 
们 可 以 建立 矩阵 方程 Hw 二 y， 进 而 采用 求 广义 逆 法 或 者 最 小 二 乘 计算 出 神经 网 络 的 权 向 量 
ww 三 HT+y。 在 神经 网 络 训练 完成 之 后 ， 亦 即 得 到 w 之 后 ， 就 能 够 采用 神经 网 络 对 新 样本 的 
性 质 预测 。 

值得 提出 的 是 ， 由 于 回归 与 分 类 可 以 进行 转换 ， 所 以 近年 来 在 机 器 学 习 和 数据 发 掘 中 发 
展 了 很 多 新 方法 ， 如 支持 向 量 机 、 分 类 和 回归 树 (CART)、Boosting 建 模 、 随 机 森林 
(REO) 等 ， 因 这 些 方法 都 是 将 回归 与 分 类 一 起 进行 的 ， 所 以 ， 有 关 这 些 新 方法 的 介绍 ， 我 们 
将 在 第 七 章 中 介绍 ， 有 兴趣 的 读者 可 参阅 第 七 章 的 相关 部 分 ， 在 此 ， 就 不 作 重 复 介 绍 了 。 
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第 七 节 ”回归 建 模 中 的 稳健 方法 


稳健 方法 是 统计 学 研究 中 的 一 个 重要 分 支 ， 同 时 也 是 目前 化 学 计量 学 研究 中 的 一 个 重要 
问题 。 本 书 将 其 在 此 节 介 绍 ， 是 因为 它 对 于 本 章 讨论 的 广义 灰色 分 析 体 系 中 的 多 元 校正 方法 
特别 重要 。 对 于 白色 分 析 体 系 的 多 元 校正 ，y 方向 上 的 奇异 点 或 奇异 值 主要 反映 在 量 测 的 波 
长 点 之 上 ， 这 样 的 奇异 点 很 容易 被 检测 出 来 〈 参 见 本 章 M 估计 的 实例 )， 但 是 ， 对 于 广义 灰 
色 分 析 体 系 中 的 多 元 校正 的 建 模 ， 由 于 每 个 y 方向 上 的 奇异 点 或 奇异 值 都 对 应 于 一 个 样本 
点 ， 即 校正 矩阵 X 的 每 一 行 ， 这 种 奇异 点 就 较 难 以 检 出 ,特别 还 由 于 广义 灰色 分 析 体 系 中 
的 函数 关系 f OO 是 非 线性 还 是 线性 都 难以 确定 ， 一 些 非 线性 点 与 奇异 点 的 区 分 就 更 是 增加 
了 校正 稳健 建 模 的 困难 ， 正 是 因为 广义 灰色 分 析 体 系 多 元 校正 建 模 和 化 学 研究 中 定量 结构 与 
活性 关系 (QSAR) 的 需求 ， 近 年 来 ,稳健 方法 的 研究 在 化 学 计量 学 得 到 了 和 较 快 的 发 展 。 

在 之 前 讨论 的 几 种 多 元 校正 的 模型 中 一 般 都 假设 化 学 的 量 测 误差 都 是 服从 正 态 分 布 的 等 
方差 月 噪声 ， 但 是 在 实际 分 析 工 作 中 这 一 假设 不 一 定 满足 。Clancey 对 250 次 量 测 包 括 
50000 个 金属 化 学 分 析 的 误差 分 布 进行 调查 的 结果 表明 ， 其 中 只 有 1026 —15 26 n] VUE JR Jt lit 
从 正 态 分 布 2353 ， 在 对 血样 的 调查 也 给 出 了 相 类 似 的 结果 5231 。 出 现 这 样 的 调查 结果 的 原因 
可 归结 为 两 个 原因 : 由 化 学 量 测 的 误差 本 来 就 不 一 定 服从 正 态 分 布 ; 书 在 量 测 过 程 中 存在 有 
奇异 点 。 所 谓 奇 异 点 是 指 远离 分 布 整体 的 量 测 值 。 产 生 奇 异 点 的 原因 很 多 ， 它 可 以 是 过 失 差 
错 ， 也 可 能 是 样本 点 没有 落 在 实验 设计 的 范围 之 内 ， 也 可 能 就 是 极 少数 就 来 自 此 分 布 的 奇异 
点 。Barnett 和 Lewis 对 此 作出 了 较 详 细 的 讨论 39 。 稳 健 多 元 分 析 的 方法 正 是 为 消除 或 减 
轻 奇 异 点 影响 和 直接 对 非 正 态 分 布 数据 进行 解析 而 设计 的 。 

很 多 用 于 化 学 数据 解析 的 方法 都 是 基于 最 小 二 乘 估 计 (LS)， 如 主 成 分 分 析 (PCA)、 多 
元 线性 回归 (MLR)、 主 成 分 回归 (PCR) 和 偏 最 小 二 乘 (PLS) 方法 都 属于 此 类 方法 。 然 而 ， 
最 小 二 乘 方法 是 不 稳健 的 ， 这 可 能 是 由 其 目标 函数 是 用 残 差 的 平方 和 所 决定 的 : 































































































































































































. 2 . 
min2ir?— minX (Yi aLa TAL; t. TAME m)? 


式 中 , 7; 是 第 i 点 的 残 差 ; y, G1. 2. n0 为 第 i 点 的 量 测 值 CDL AB EOD; 
j G1, 2, 0, n; j—71, 2, c, m) i 点 量 测 点 上 的 第 j 个 自 变 量 ; oj (7 一 1， 
2，…，m) 为 第 j 个 最 小 二 乘 估计 值 。 从 此 式 可 以 看 出 ， 如 某 一 个 量 测 值 y; 为 一 奇异 点 ， 
它 的 残 差 很 大 ， 再 经 平方 运算 ， 则 对 最 小 二 乘 估计 将 产生 很 大 影响 。 故 稳健 估计 的 第 一 步 首 
先是 由 Edgeworth'?99J fr 1887 年 提出 的 最 小 一 乘 估计 ， 即 
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minè |r; | 


然而 ， 最 小 一 乘 佑 计 只 对 y; 的 奇异 点 稳健 ， 而 对 男 一 类 奇异 点 ， 亦 称 为 坏 杜 杆 点 的 值 非 
常 敏 感 。 所 谓 杠杆 点 在 回归 分 析 中 称 为 强 影响 点 8861， 有关 这 类 奇异 点 的 例子 可 参阅 文献 [337]。 
为 评价 方法 的 稳健 性 ，Hodgest3354 引 人 了 骨 溃 点 的 概念 ， 这 一 概念 的 更 一 般 的 计算 公式 则 
由 Hampell335 给 出 。 一 般 说 来 ， 前 溃 点 的 概念 可 解释 为 强烈 影响 估计 偏离 其 “实际 ”情况 
的 最 小 的 奇异 点 数 与 估计 时 所 包含 点 数 的 比值 。 最 小 二 乘 估计 的 前 省 点 是 1/n， 这 就 是 说 ， 
只 要 在 半 个 量 测 点 中 有 一 个 是 奇异 点 ， 它 就 可 以 完全 破坏 最 小 二 乘 佑 计 。 值 得 提出 的 是 ， 
如 果 存 在 坏 杠 杆 点 ， 最 小 一 乘 的 骨 溃 点 也 是 1/n! 图 6-119 示 出 了 这 样 一 个 由 奇异 点 对 简单 
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最 小 二 乘 估计 影响 的 实例 。 从 图 可 以 看 出 一 个 奇异 点 就 对 最 小 二 乘 估计 影响 十 分 大 ， 它 将 完 
全 破坏 最 小 二 乘 估计 。 







无 奇异 点 存在 
时 估计 的 模型 
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由 一 个 奇异 点 对 简单 最 小 二 乘 估计 影响 示意 图 


在 统计 学 中 ， 一 般 用 两 种 方法 来 处 理 含 奇异 点 和 非 正 态 分 布 的 数据 ， 即 诊断 方法 和 稳健 
估计 方法 。 如 Rousseeuw 和 Leory 指出 的 那样 [84 ， 这 两 种 方法 虽 处 理 顺 序 完 全 相反 ， 但 却 
殊途同归 ， 具 有 相同 目的 。 诊 断 方法 是 着 重 于 首先 找 出 奇异 点 ， 在 剔除 这 些 奇异 点 后 继 用 经 
由 估计 方法 处 理 ， 而 稳健 估计 方法 则 是 在 解析 过 程 中 找到 数据 分 布 的 主体 ， 构 造 稳健 估计 模 
型 ， 同 时 使 数据 中 的 奇异 点 不 对 估计 产生 影响 〈 尽 管 这 些 奇 异 点 有 很 大 的 残 差 )。 在 实际 的 
应 用 中 ， 两 种 方法 几乎 产生 同样 的 结果 ， 选 择 哪 种 方法 来 进行 稳健 估计 无 关 紧 要 。 在 这 里 我 
们 对 近年 来 在 统计 学 和 化 学 计量 学 中 出 现 的 稳健 方法 进行 讨论 ， 使 读者 对 多 元 分 析 中 的 稳健 
方法 有 一 全 面 性 了 解 。 


一 、 回 归 诊 断 方法 (regression diagnostic methods ) 


诊断 方法 主要 是 研究 那些 对 最 小 二 乘 估 计 有 较 大 影响 的 奇异 点 的 特性 ， 旨 在 找到 一 种 作 
图 或 计算 方法 来 直接 将 这 些 奇异 点 或 强 影 响 点 检 出 ， 以 消除 它们 对 回归 参数 估计 的 影响 。 下 
面 将 对 两 类 诊断 方法 ， 即 所 谓 经 典 诊断 方法 和 稳健 诊断 方法 ， 进 行 较 详细 的 讨论 。 

(一 ) 经 典 诊断 方法 (classic diagnostics methods) 

经 典 诊 断 方法 主要 是 基于 一 些 非 稳健 估计 ， 如 最 小 二 乘 估计 模型 和 它 的 残 差 、 均 值 及 协 
方差 矩阵 的 分 析 之 上 。 在 此 我 们 首先 介绍 最 小 二 乘 估计 的 投影 帽子 矩阵 吾 ， 因 为 很 多 诊断 
方法 源 出 于 此 。 

在 化 学 计量 学 中 称 为 直接 校正 的 多 元 线性 回归 模型 可 写成 如 下 的 矩阵 形式 : 






















































































y —Xa 十 e 
其 中 
Ti 012 * Zim 
T23 T2 * Tm 


Tanl T an2 kie T nm 
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帽子 和 矩阵 可 定义 为 
H-—XOX'X)!X' 


个 (nn Xn) 阶 矩 阵 之 所 以 称 为 帽子 矩阵 是 因为 它 可 直接 将 量 测 矢量 转换 成 为 最 小 二 乘 的 
a d 





y —Hy —X(X'X) X! y — Xa 
RDW, "B ABER — REEERE, HI 
HH —H 
H—H' 


而 且 trCHO =m 
实 因 





tr CH) — tr[ XCX! X)! X! ] 


—tu[X'XO' Xx) !]—tü,) =m 





在 这 里 tr C * 0. RIER. MB TE E — E SENIORE PER SR SCR XXE 





Hi =(H); = (HH); = X jhj) = X hihi) A Mai 


=h} + D hy) 


ij 
上 式 说 明 O-A;-—1. IEXESU 


9y;/ay; —hi 








说 明 hi 可 看 成 是 第 i 个 量 测 值 对 其 预测 值 的 影响 程度 的 一 种 度量 。 这 样 ， 如 果 i; 很 大 ( 靠 
ir 1)， 即 说 明 变 量 i 对 最 小 二 乘 估 计 有 很 大 的 影响 。 以 下 将 依据 帽子 矩阵 所 得 信息 来 进 
步 讨论 回归 分 析 中 几 个 值得 引起 注意 的 问题 。 

(1) 回归 残 差 与 高 杠杆 点 ”从 式 》 王 瑟 ?》 和 y 一 y 一 8 可 知 ， 




















e€—y Hy —U— H)0y —ü — HXYOX8 o e) —G — Hoe (参见 文献 [341]) 





在 此 e 为 模型 误差 ， 它 服从 均值 为 零 、 方 差 为 的 正 态 分 布 ， 而 s 为 模型 实际 残 差 ， 从 上 式 
可 知 ， 它 将 同样 服从 均值 为 零 、 但 方差 为 (I 一 及 ) o? 的 正 态 分 布 ， 因 为 有 ， 





E(e) —0 (6-213) 


var(e) — (I — Hoc? (6-214) 
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如 果 校 正 集 样本 的 数目 较 大 ， 即 此 时 nm BE. hy GA) 将 都 会 趋 近 于 零 ， 此 时 ej; 之 ej， 
残 差 与 模型 误差 相当 。 同 时 ， 从 式 6-214) 可 以 看 出 ， 每 个 残 差 的 方差 不 同 ， 它 们 的 分 布 
依赖 于 它们 在 回归 空间 点 的 位 置 ， 即 ji; 的 大 小 : 











var(e;) —(1—Ah 2o? 


在 回归 分 析 中 ， 靠 近 数 据 中 心 的 点 的 hi 一 般 都 比较 小 ， 它 们 的 方差 varle) 也 很 接近 于 o°, 
但 是 对 于 一 些 X 空间 的 边界 点 ， 其 hi;; 都 较 大 ， 此 时 它们 的 方差 varle) 较 小 ， 这 就 意味 着 
这 些 点 的 残 差 较 小 ， 模 型 明显 偏向 它们 ， 所 以 它们 就 构成 了 对 模型 有 显著 影响 的 点 ， 故 称 为 
强 影响 点 ， 也 称 高 杠杆 点 (leverage points) 。 一 般 说 来 ， 当 /大 于 它 的 平均 值 (m/n) 的 
两 倍 或 三 倍 时 ， 可 认为 第 ; 个 量 测 值 所 对 应 的 x*; 是 一 个 强 影响 或 称 为 高 杠杆 点 。 由 于 模型 明 
显 偏向 强 影响 或 称 为 高 杠杆 点 ， 而 致使 它们 的 残 差 将 明显 偏 小 ， 从 而 使 得 仅 基 于 残 差 来 诊断 
奇异 点 就 较为 困难 了 。 

PCR 和 PLS 建 模 中 的 高 杠杆 点 诊断 类 似 于 常规 最 小 二 乘 建 模 中 的 高 杠杆 点 的 诊断 ， 只 
是 PCR 和 PLS 是 针对 参与 建 模 的 潜 变 量 空间 而 不 是 针对 X 来 进行 而 已 ， 















































hi 二 1/T 十 t; CFT) t; S WC RR [342 D) 


1/1 项 就 代表 截 距 的 贡献 ， 而 t+; 《TTT) 17; 项 则 代表 高 杜 杆 点 的 贡献 。 注 意 到 PCR 和 PLS 
的 潜 变 量 空间 是 相互 正 交 的 ， 即 (TTT) 为 一 对 角 和 矩阵 ， 所 以 ， 上 式 可 以 简化 为 ， 























(2) 奇异 点 的 类 型 ”一般 说 来 ,奇异 点 就 是 一 些 远离 数据 主体 的 数据 点 。 在 回归 模型 
中 ,奇异 点 可 以 从 两 方面 来 看 ,一 种 是 一 些 与 回归 模型 不 相合 ( 常 称 为 y 方向 的 奇异 点 )， 
而 另 一 种 则 是 远离 校正 矩阵 中 其 余 点 的 数据 点 的 奇异 点 〈 常 称 为 X 方向 的 奇异 点 ， 亦 即 前 
述 的 高 杠杆 点 ) 。 此 外 ， 我 们 还 可 见 到 一 些 奇异 点 ， 它 们 是 以 上 两 种 奇异 性 质 的 结合 ， 同 时 





























既是 X 方向 又 是 y 方向 的 奇异 点 。 图 6-120 示 出 了 这 三 种 奇异 点 的 类 型 在 简单 单 变量 回归 
模型 的 情况 。 从 图 可 以 看 出 ， 不 同类 型 的 奇异 点 对 模型 的 影响 是 不 同 的 。 

" 方向 奇异 点 

N 






J 方 向 奇异 点 


既是 XY 又 是 ;方向 的 奇异 点 








> 


X 
三 种 奇异 点 类 型 在 简单 单 变量 回归 模型 时 的 情况 


实 线 : 不 包含 奇异 点 的 回归 模型 ， 点 线 : 包含 奇异 点 的 回归 模型 ; 
圆 点 : 正常 样本 ; 方 点 : 不 同类 型 的 奇异 点 
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在 此 值得 指出 的 是 ， 奇 异 点 在 不 同 数据 集中 时 所 起 的 作用 是 不 同 的 ， 一般 说 来 ， 在 训练 
集 的 奇异 点 将 主要 是 影响 所 建 的 模型 参数 估计 (此 点 我 们 将 在 下 面 给 出 讨论 )， 而 在 校 验 集 
的 奇异 点 则 将 影响 所 建 的 模型 的 选择 ， 即 影响 交叉 校 验 的 结果 ， 它 将 使 得 交叉 校 验 的 结果 不 
稳定 。 而 且 ， 在 校 验 集 的 奇异 点 影响 所 建 的 模型 选择 还 未 得 到 足够 的 重视 ， 此 点 我 们 将 在 适 
当 的 时 候 给 予 讨 论 。 在 测试 集 的 奇异 点 将 会 影响 最 后 模型 的 评价 ， 这 一 点 也 还 未 得 到 足够 重 
视 ， 希望 引起 读者 的 注意 。 下 面 我 们 将 先 主 要 讨论 在 训练 集中 的 奇异 点 对 模型 建立 的 影响 ， 
以 及 如 何 将 它们 诊断 出 来 。 

还 有 一 点 需 注 意 ， 在 图 6-120 中 显示 的 奇异 点 的 示意 图 是 针对 单 变量 回归 模型 而 言 的 ， 
但 在 广义 灰色 体系 的 校正 回归 模型 中 ， 大 多 是 多 变量 回归 模型 ， 所 以 它们 的 诊断 并 不 容易 。 
6-121 示 出 了 这 样 一 个 由 两 个 自 变 量 所 构成 的 回归 模型 例子 。 本 例 是 一 个 含 10 个 样本 的 
木 标 强 度数 据 ， 它 的 两 个 自 变量 为 相对 密度 和 湿 固 化 量 (moisture content) 95 。 6-121 
示 出 的 是 相对 密度 对 湿 固 化 量 的 点 图 。 从 图 可 以 看 出 ， 两 个 自 变量 (zl 和 z*) 似乎 都 在 一 
定 的 范围 之 内 ， 没 有 远离 中 心 的 数值 ， 如 采用 单 变 量 方法 来 检查 奇异 点 ， 将 看 不 出 任何 奇异 
点 来 。 但 如 果 从 整体 来 看 ， 就 可 以 看 到 图 中 的 第 四 点 (点 4) 可 能 就 是 一 个 X 方向 的 奇异 
点 ， 实 因 ， 这 十 个 样本 的 两 个 自 变量 有 一 定 相 关 关 系 ， 而 第 四 点 (点 4) 却 破 坏 了 这 种 相关 
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木 棵 强度 数据 中 的 相对 密度 对 湿 固 化 量 的 点 图 5 


(3) 内 学 生化 残 差 (internally studentized y-residuals) ”内 学 生化 残 差 的 定义 如 下 : 





Ei 


s/l—higü 


内 学 生化 残 差 也 称 为 学 生化 残 差 或 称 为 标准 化 残 差 。 内 学 生化 残 差 它 具 有 均值 为 零 和 单位 化 
方差 的 特点 (证 明 参 见 文献 [341] ) 。 内 学 生化 残 差 的 表达 式 中 的 分 子 与 分 母 是 相互 不 独立 
的 ， 这 是 因为 分 母 中 的 标准 差 (GO 是 由 残 差 (e;) 算出 。 这 样 ， 如 果 点 为 一 奇异 点 ， 则 
点 i 的 残 差 C) 将 较 大 ， 也 将 影响 到 标准 差 GO 的 估计 ， 从 而 影响 内 学 生化 残 差 的 估计 。 
(4) 外 学 生化 残 差 Cexternally studentized y-residuals) ”外 学 生化 残 差 的 定义 如 下 : 


Tu 


























第 六 章 “多 元 校正 与 多 元 分 辨 | 515 | 


外 学 生化 残 差 也 称 为 刀 切 法 残 差 (Jackknife residuaD t] sk ^£ ^E [5E 28. (R-student) 953 , 
从 上 式 可 以 看 出 ， 外 学 生化 残 差 与 内 学 生化 残 差 的 主要 差别 就 在 标准 差 (s) 的 计算 上 。 外 
学 生化 残 差 的 标准 差 是 采用 (s-;)， 即 为 吻 除 点 i 后 建 模 所 得 的 残 差 来 计算 标准 差 的 ， 故 其 
与 残 差 (e;) Ju. 它们 是 相互 独立 的 ， 不 会 影响 外 学 生化 残 差 的 估计 。 所 以 一 般 都 认为 ， 
外 学 生化 残 差 比 内 学 生化 残 差 敏 感 ， 是 一 个 较 好 的 稳健 诊断 指标 。 

G) 拟 合 影响 指数 (influence on the fitted value, DFFITS) 拟 合 影响 指数 亦 称 
Welsch-Kuh 距离 ， 主 要 考察 奇异 点 对 模型 拟 合 的 影响 ， 其 定义 如 下 《文献 L346]) : 
































DFFITS; =% 4 
s—i hi 














AP, y, 表示 包括 了 第 i 点 所 建 模 型 在 第 ; 点 上 的 拟 合 值 ，y ,表示 剔除 了 第 ; 点 所 建 
模型 在 第 i 点 上 的 预测 值 。 所 以 ,通过 DFFITS; 可 以 看 得 出 第 i 点 对 回归 拟 合 模型 的 影响 。 
可 以 证 明 € [345] )，DFFITS; 还 可 以 写成 如 下 形式 ， 





























h ü 17/2 


1 —h ii 
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ri 


DFFITS; = 








有 关 DFFITS 的 几何 意义 可 由 图 6-122 示 出 。 








-EM 
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AZ 


DFFITS, 








X, 
ERSA DFFITS 的 统计 几何 意义 
其 中 : 模型 a 为 将 所 有 点 都 包含 在 内 的 回归 模型 ，e; 为 其 模型 的 残 差 ; 
模型 b 为 将 奇异 点 去 除 后 所 建 的 回归 模型 ，ej, ;为 其 模型 的 预测 误差 ; 








DFFITS; 实 际 反映 了 两 个 模型 之 间 的 差异 








(60 BREK (Mahananobis distance) ”在 统计 学 和 化 学 计量 学 中 ， 蕊 氏 距 离 是 男 一 
个 常用 的 诊断 工具 ， 主 要 用 来 诊断 X 方向 的 奇异 点 。 其 定义 式 如 下 : 








MD; —G;—z)C!G;—2z) 


在 这 里 C 是 X 矩阵 的 协 方差 阵 ， 而 则 是 x; Gi 二 1，2，…，n) 的 均值 矢量 。 可 以 证 明 : 





MD; =(n-1)[ (h;a —1)/n] 
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从 上 式 可 以 看 出 ， 马 氏 距 离 与 帽子 矩阵 有 类 似 功 效 ， 因 它 本 身 就 是 的 hi; 函数。 

(7) Cook 距离 (Cook distance) ”单独 使 用 帽子 矩阵 和 马 氏 距离 不 足以 找到 在 回归 分 
析 中 的 全 部 奇异 点 和 强 影响 点 ， 另 一 个 原因 可 能 是 由 于 它们 都 没有 用 到 量 测 矢 量 y 的 信息 。 
为 了 估价 在 量 测 矢量 中 第 ;个 量 测 点 的 影响 ， 人 似乎 有 必要 在 进行 回归 分 析 时 比较 包括 第 ;个 
量 测 点 或 不 包括 第 i 个 量 测 点 时 的 回归 参数 的 结果 ， 这 就 导致 了 Cook 的 平方 距离 [2347,348] , 

















CD — (8 — ÈG) ] MTE —BGO])/c 


(y —»-0TG — 3-0) 


CD? = ; 





ms 





在 上 述 方程 中 , B 是 8 的 最 小 二 乘 估计 ， 而 PG) 则 是 8 的 在 没 包 括 第 ; 个 量 测 点 时 对 pu 
的 最 小 二 乘 估 计 。 如 果 选 择 M=XIX ZW c—ms?—ml23ri/(Gr—mO0]. B ERRI CIR 
大 ， 这 就 说 明 第 i 个 量 测 点 对 回归 参数 的 估计 有 很 大 的 影响 。 

值得 指出 的 是 ， 前 述 的 多 种 诊断 方法 对 于 单个 的 奇异 点 或 杠杆 点 都 有 一 定 作 用 ,但 是 ， 


























由 于 奇异 点 或 杠杆 点 具有 很 强 的 相互 拖 项 效应 (masking or swamping effect)， 以 致 造成 很 
多 假象 而 掩蔽 了 真正 的 奇异 点 和 杜 杆 点 。 这 种 现象 已 成 为 目前 回归 诊断 中 的 一 个 难点 问题 。 











注意 到 Cook 的 平方 距离 还 可 推广 到 诊断 多 个 奇异 点 的 情况 [34 : 


CDO)? ={([b b) ] MTR — ÈA) ]}/e 





在 这 里 , 代表 对 应 于 一 个 量 测 点 子 集 的 标号 ， 别 的 都 与 前 式 中 的 意义 相同 。 然 而 ， 怎 样 选 
择 包 括 了 的 子 集 却 的 确 不 容易 。 而 且 ， 由 于 掩蔽 效应 ， 很 可 能 有 些 奇 异 或 强 影 响 点 在 单独 存 
在 时 影响 不 大 ， 但 如 果 它 们 协同 作用 时 影响 就 大 了 。 这 样 ， 各 种 可 能 的 子 集 构 成 都 必须 加 以 
考虑 才 行 ， 由 此 导致 的 将 是 计算 的 实际 困难 。 可 以 想象 ， 如 果 我 们 必须 计算 所 有 可 能 的 子 集 
4. MEW CES, 2. 7. n/2) ， 这 就 是 所 谓 组 合 爆 炸 问 题 ， 铠 怕 是 目前 已 有 计算 
机 都 难 胜任 的 大 工作 量 任务 。 所 以 ， 如 何 有 效 地 诊断 多 个 奇异 点 共存 而 不 受 奇异 点 的 掩蔽 效 
应 影响 的 问题 实际 上 还 是 一 个 未 完全 解决 的 问题 。 
(二 ) 稳健 诊断 方法 (robust diagnostic methods) 
为 了 克服 奇异 点 的 掩蔽 效应 ，Rousseeuw 等 提出 了 一 个 稳健 距离 340]. 
























































RD; —[x; —T(x)]CCXO Lr: — T(x) 上 








如 果 将 此 式 与 MD;-—(xi—30C- 1 (xi —20! 进行 比较 ， 容 易 发 现 ， 此 式 与 其 的 主要 差别 
在 于 用 T(x) fI CCXO 分 别 代 替 了 其 中 的 不 稳健 的 均值 矢量 x 和 协 方差 阵 C。 在 这 里 ,T(z ) 
MCX) 为 所 谓 的 最 小 体积 椭 球 估计 (MVE)G33]。 它 们 可 以 通过 下 述 迭 代 加 权 过 程 而 
得 到 . 








T (x)—A3Xwx;/3Xw! 


C (XY E. [zi 一 下 w] [us — T V] wt) 
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在 这 里 的 迭代 权重 因子 w? 由 前 一 次 的 稳健 距离 确定 : 








1 
"e 
0 
Rousseeuw 等 用 此 稳健 距离 ， 结 合 最 小 中 位 方差 估计 (LMS) 来 同时 检 出 在 X 和 > 中 
的 奇异 点 。 然 而 Cook 和 Hawkins 指出 这 一 过 程 有 可 能 过 量 检 出 奇异 值 ， 算 法 参数 的 很 小 变 
































化 ， 有 时 却 能 显著 地 改变 稳健 距离 的 检 出 结果 。 最 近 ，Atkinson 和 Mulira 提出 一 种 新 的 稳 
健 诊 断 方法 ， 即 所 谓 的 “钟乳石 图 ”来 消除 多 变量 奇异 点 [50 。 他 们 不 改变 马 氏 距离 中 的 均 
值 和 协 方差 阵 ， 而 是 采用 逐步 扩大 计算 子 集 并 逐步 吻 除 奇异 点 的 方法 来 克服 多 个 奇异 点 的 掩 
蔽 效应 。 

在 化 学 计量 学 中 ，Hu 和 Massart 比较 研究 了 几 种 稳健 方法 ， 如 单个 中 位 数 法 、 重 复 中 
位 数 法 、 最 小 中 位 方差 佑 计 法 (LMS) 和 模糊 校正 方法 的 检 出 奇异 点 的 能 力 0555 。 他 们 的 结 
论 是 : 在 有 奇异 点 存在 的 情况 下 ， 最 小 二 乘 估计 难于 获得 正确 结果 ， 而 稳健 方法 和 模糊 校正 
方法 的 估计 结果 一 般 是 可 接受 的 。 陈 文 灿 等 提出 一 种 基于 所 谓 的 “钟乳石 图 ”算法 基础 的 稳 
健 诊 断 的 新 算法 ， 可 用 于 多 个 样本 量 测 矢量 的 奇异 点 的 同时 检 出 。 在 有 奇异 点 存在 的 情况 下 
明显 优 于 最 小 二 乘 估 计 [3521 。 


二 、 稳 健 回归 方法 


如 前 所 述 ， 在 统计 学 中 ， 可 用 两 种 方法 来 处 理 含 奇异 点 的 数据 ， 即 诊断 方法 和 稳健 估计 
方法 。 这 两 种 方法 具有 相同 目的 。 诊 断 方法 是 着 重 于 首先 找 出 奇异 点 ， 在 剔除 这 些 奇异 点 后 
继 用 经 典 估 计 方 法 处 理 ;， 而 稳健 估计 方法 则 是 在 解析 过 程 中 找到 数据 分 布 的 主体 ， 构 造 稳健 
估计 模型 ， 同 时 使 数据 中 的 奇异 点 不 对 估计 产生 影响 (尽管 这 些 奇异 点 有 很 大 的 残 差 )。 在 
此 ， 我 们 仅 介绍 几 种 常用 稳健 回归 方法 (robust regression methods), 

(一 ) 最 小 一 乘法 

最 小 一 乘法 (least absolute method). 首先 是 由 Edgeworth?*) 在 1887 年 提出 ， 其 目标 
函数 为 Min> |r; | ， 以 减 小 最 小 二 乘 由 于 对 残 差 进行 平方 运算 而 增 大 异常 点 对 拟 合 的 影 
响 ， 从 而 达到 稳健 的 效果 。 由 于 绝对 值 的 计算 不 便于 微分 ， 最 小 一 乘 很 难得 到 像 最 小 二 乘 那 
样 的 简洁 解析 解 ， 一 般 需 采用 优化 方法 求解 ， 本 文 介 绍 的 是 一 种 基于 数论 的 序 贯 全 局 优化 方 
法 G5， 主要 还 是 应 用 于 白色 分 析 体 系 的 直接 校正 方法 。 该 优化 方法 采用 数论 方法 在 搜索 区 
间 均 匀 布 点 ， 继 序 贯 收缩 地 搜索 空间 ， 故 有 序 贯 数论 优化 算法 (SNTO) 之 称 。 与 其 他 全 局 
优化 算法 比 ，SNTO 具有 原理 清晰 明了 、 算 法 易于 实现 等 特点 。 当 然 ， 最 小 一 乘法 也 可 用 
线性 规划 的 方法 来 求解 (355.3556] ， 有 兴趣 的 读者 可 参阅 文献 [L357]。SNTO 算法 的 第 一 步 就 是 
确定 搜索 区 间 ， 继 在 搜索 区 间 均 匀 布 点 ， 序 贯 收缩 以 达到 最 优点 的 估计 。 

(D 直接 校正 浓度 估计 的 约束 区 间 ”从 化 学 知识 可 知 ， 浓 度 估 计 值 c; (i 二 1，…，n) 都 
大 于 零 ， 即 SNTO 算法 的 搜索 下 界 为 w& 一 (0，…，0)， 另 从 式 > 一 clzl 十 … 十 cvz, 十 e 
可 知 ， 


















































































































































3 
对 于 任 一 组 分 &， 有 


yi Z7 caxg dei 
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亦 即 
< Cy; b a)/xj4 < max[ Cy; 十 ca) 人 (三 1，…，7) 
7 (1, , mj 
AP, m 为 量 测 点 数 ( 波 长 数 ); a 为 一 正 数 ， 以 替代 误差 的 作用 ， 其 余 符 号 意义 同 前 。 


所 以 ， 多 元 校正 的 搜索 区 间 的 上 界 为 : 
b — (max[ Cy; aD /x; ]» =t, max[Cy; a)/zr, |)} 


(2) n 维 实数 空间 中 的 长 方 体 域 [a, b] 时 的 SNTO 算法 Sas, 0), 
b= {max[ (yi;ta)/znj, t, max[ Cy; Fa) /x;, ) AR x is cns or. SNTO 的 
过 程 如 下 。 

D 初始 化 。 令 ;一 0，D@ —D, a? =a 以 及 50 =b 

© 产生 NT-net。 用 好 格子 点 (good lattice point, GLP) 集 产生 在 Dn? = [a0 , bH] 
E335] 4 ff i n AWAR. 

@ 计算 近似 最 优点 。 确 定 满 足下 式 的 ?Ep 人 DU {10} MMO: 








Mt? —objCz?)— | | &objCz) Vx € p? UU {zr Dn} 





NP, xz‘? ERR; OO MMO 是 到 目前 为 止 x* 和 M 的 最 佳 近似 。 

QD 终止 准则 。 SARO —(50 —a0O5/2, WR max(A (00 98 ,6 为 一 预 置 的 较 小 数 ， 则 
可 认为 D' 收缩 到 足够 小 ， 终 止 算法 并 接受 zx 和 MW 。 否 则 ， 执 行 下 一 步 。 

O 收缩 搜索 域 。 构 造 新 的 搜索 域 六 一 [ac Ut ], 








att = max(xí? — yc? , ai) 


bot — min Cx (? 十 Yc? ; b;) 


XB. y 是 一 预 置 的 收缩 因子 。 令 1 二 t 十 1， 转 到 第 @ 步 。 

方 开 泰 等 建议 选取 ins 二 ns 二 … 并 使 用 Y= 二 0.5。 此 外 ， 虽然 以 上 算法 是 为 长 方 体 搜 
索 域 中 的 优化 问题 而 设计 的 ， 但 可 很 容易 地 将 它 推广 至 一 般 的 搜索 域 中 。 

CZ) M 估计 法 (M-estimation method) 

M 估计 是 极 大 似 然 估 计 的 一 种 简称 [858] 。 Aa e uid EE 反 最 小 
二 乘 估计 用 残 差 平方 和 为 目标 函数 的 做 法 ， 它 重新 定义 了 一 个 目标 函数 












































mind po(r;) 





Rh, o(. ) 为 一 偶 函 数 ， 即 o( 一 1) =p(1) ， 且 在 1 等 于 零 时 具有 唯一 的 最 小 值 。 对 上 式 
的 回归 参数 求 导 可 得 
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式 中 , y(. ) 为 o(.) WERA; s 是 残 差 7; 的 分 散 度 的 估计 值 。 式 中 的 两 个 矢量 的 定 
义 分 别 为 : zx; 二 (ri Xs s Zim) 和 0 二 (0，0，…，0)!。 如 果 我 们 选 p (7x;) 二 1/2， 则 
由 式 min Do Cri) 定义 的 M 估计 就 是 经 典 的 最 小 二 乘 估计 。 

实际 上 ，M 估计 是 直接 从 构造 y 函数 而 不 是 构造 op 函数 出 发 ， 不 同 的 M 估计 有 着 不 同 
的 少 函 数 。 在 这 里 我 们 只 给 出 一 个 例子 来 加 以 说 明 。AndrewsL359 定 义 了 如 下 的 少 函 数 : 





























sin(z/c) | z | c 
ylz) 一 
0 |z |>c 


在 这 里 < 是 一 个 截断 参数 。 因 > 可 以 是 残 差 也 可 以 是 残 差 的 函数 ， 所 以 y 可 以 看 成 是 回 
归 参 数 aj (二 1，2，…，m) 的 函数 ， 这 样 ， 只 要 得 到 了 a;， 就 可 以 得 到 y。 因 此 ，M 估计 
在 实际 的 计算 中 是 一 个 迁 代 过 程 Laoo ， 

中 最 小 二 乘 估 计 得 到 回归 参数 的 初始 估计 :a — CX X)! X' y ; 然后 ， 用 下 式 对 所 得 初 
台 残 差 进行 处 理 ， 目 的 在 于 降低 大 残 差 对 下 一 步 回 归 参 数 oj GO =l, 2, e, m) 估计 的 
影响 : 





1.5 X median(r;) Xsign(r;) |r; |2» 1. 5 X median(r;) 
Uis 
r; | r; [< 1. 5 X median(r;) 





式 中 , median Gre;) 表示 取 残 差 的 中 位 数 ， 它 是 一 个 替代 均值 估计 的 稳健 指标 。 回 归 参 数 
的 初始 估计 即 可 由 下 式 得 到 : 


a"i =a + Aa 


Aa =(X' X) X'r 


(xo CD )2 =P (r /s H/C r s) 


s? = median | r |) 


这 样 ， Ji fg 20 W Cr; /s) x; —0 可 变 为 ， 


Mr VY Got /s 09 )x;/r(? Js? =s% 
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将 上 式 换 成 


I Mri EE /s 8 )/ G C? / s OO? )]x; 
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CD 而 不 用 更 (Cr 多/ ) 来 表示 , 即 得 


DE )x;/r(9 Js = DEG /s9)x;/G(9 s )] 


- 5 (wo (FP Ey; — (a D)51x, ]) Go (t7? )x ; 


= M wD) y; — (g**Dy!x,]—0 


解 上 式 可 得 


og D == [Xt (WED \VXJX:' (W +1) )?y 





上 式 实际 就 是 加 权 最 小 
Vr 9 /s 0 )/ (pj s), 
更 [ro /s ]/[r(? AD] £88] w (^^? ,然后 用 上 式 得 到 a 
轮 迭 代 。 重 复 此 迭代 过 程 ,直至 


划 线 标明 的 数值 ;1. 704,1.792 和 2.372), 

















二 乘 估计 的 解析 解 , 在 这 里 (Wi 


所 以 ,在 实际 的 计算 过 下 





个 奇异 点 (y; 王 1. 006, 其 残 差 在 第 二 次 迭代 中 为 0. 2778) 。 
亦 被 消除 。 注 意 到 此 时 除 四 个 奇异 点 外 ,所 有 的 权 因子 都 变 成 了 1。 





= irf? [Cwt]; 





程 中 ,就 是 通过 [w p 
得 新 的 残 差 以 开始 下 一 
给 定 值 。 表 6-27 给 出 了 一 
个 这 样 的 计算 例子 。 JOx -BEPRHITH DUEB, M 估计 的 收敛 速度 很 快 。 由 M 估计 定义 的 初 
始 残 差 和 初始 回归 参数 估计 就 可 在 迭代 过 程 中 排除 了 三 个 奇异 点 的 影响 ( 即 表 中 的 三 个 用 下 





在 第 三 


PER 
HED 8 aC 的 差 值 的 模 小 于 某 一 

















D 92 Jg — X f XB Eg . HOST foo x5 LIE 


在 迭代 过 程 中 ,第 二 次 迭代 就 找到 了 还 余下 的 那 
次 的 迭代 过 程 中 , 它 的 影响 





























M 估计 迁 代 过 程 
迭代 次 数 第 一 次 第 二 次 第 三 次 
01 az 01 a2 CA a 
miki 1. 336 一 0. 3981 0. 7033 0. 2086 0. 5005 0. 4000 
y x; X2 Dx 权重 残 差 权重 残 差 权重 
0. 5266 0. 5207 0. 6640 0. 0933 0. 9986 0. 0218 0. 9999 0. 0004 000 
0. 6596 0. 6640 0. 8185 0. 0985 0. 9984 0. 0219 0. 9999 — 0. 0001 000 
0. 8001 0. 8185 0. 9766 0. 0955 0. 9984 0. 0207 0. 9999 — 0. 0001 . 000 
0. 9399 0. 9766 . 129 0. 0842 0. 9988 0. 0175 0. 9999 — 0. 0003 . 000 
1. 107 .129 1. 265 0. 0675 0. 9992 0. 0129 1. 000 — 0. 0001 000 
. 183 . 265 «375 0. 0392 0. 9997 — 0. 0012 1. 000 0. 0004 . 000 
1. 268 ES E 1. 449 0. 0068 1. 000 — 0. 107 1. 000 — 0. 0002 . 000 
. 318 . 449 482 — 0.0286 0. 9999 — 0. 0004 1. 000 — 0. 0004 000 
1. 329 1. 482 1. 469 0. 0663 0. 9993 — 0. 0283 0. 9999 0. 0001 . 000 
299 . 469 . 409 —0. 1037 0. 9982 —0. 0361 0. 9998 — 0. 0003 . 000 
1. 227 409 1. 307 —0. 1351 0. 9970 —0. 0411 0. 9997 0. 0002 000 
.122 307 .169 — 0.1598 0. 9958 — 0. 0440 0. 9997 0. 0003 . 000 
0. 9890 .169 1. 009 一 0. 1704 0. 9952 0. 0115 0. 9997 0. 0000 . 000 
0. 8396 . 009 0. 8370 — 0.1732 0. 9950 — 0. 0428 0. 9998 0. 0004 000 
1.006 0. 8370 0. 6671 0. 1513 0. 9939 0. 2778 0. 000 0. 3199 0. 000 
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迭代 次 数 第 一 次 多 三 次 第 三 次 
J Ql 02 Ql 02 Ql C2 
albo 1. 336 — 0. 3981 0. 7033 0. 2086 0. 5005 0. 4000 
y Xi xz DI 权重 残 差 权重 残 差 权重 
0. 5378 0. 6671 0. 5100 一 0. 1486 0. 9963 0. 0378 0. 9998 —0. 0001 1. 000 
1. 704 0. 5100 0. 3735 1. 137 0. 000 1. 268 0. 000 1. 299 0. 000 
1. 792 0. 3735 0. 2618 1. 369 0. 000 1. 474 0. 000 1. 500 0. 000 
2. 372 0. 2618 0. 1754 2. 071 0. 000 2. 151 0. 000 2. 171 0. 000 
0. 1328 0. 1754 0. 1122 — 0. 0924 0. 9991 0. 0139 1.000 0. 0002 1. 000 
在 化 学 计量 学 的 研究 中 ，Philips 和 Eyring 最 早 将 M flit F LH 43 rO51 。 他 们 对 38 
套 至 少 含 10 个 数据 点 以 上 的 数据 来 估计 一 元 回归 参数 ， 即 回归 直线 的 斜率 和 截 距 ， 发 现 M 








估计 优 于 或 至 少 与 经 典 最 小 二 乘 估 计 相 当 。Wolters 和 Kateman 应 用 男 一 种 M 估计 方法 通 
过 Monte-Carlo 模拟 不 同 误差 分 布 对 参数 估计 的 影响 作出 了 详细 的 研究 [862 。 他 们 的 结论 
是 : 对 于 所 含 数 据点 大 于 10 的 数据 ，M 估计 一 般 都 优 于 最 小 二 乘 估计 。 魏 万 之 等 用 
Andrews 所 提 函 数 的 M 估计 来 进行 多 组 分 体系 解析 -38 ， 他 们 的 研究 结果 表明 ， 如 果 误 差 
分 布 不 属于 正 态 分 布 ， 则 稳健 估计 明显 优 于 最 小 二 乘 估 计 。 谢 玉 珑 等 [5 和 用 几 种 M 估计 方 
法 来 处 理 多 元 校正 中 的 部 分 非 线 性 问题 ， 那 些 偏 离线 性 模型 的 波长 点 就 作为 奇异 点 看 待 ， 他 
们 的 结果 表明 稳健 方法 对 消除 部 分 非 线 性 数据 有 显著 效果 。 

(=) 最 小 中 位 平方 法 (least median of squares, LMS) 

一 般 说 来 ， 如 果 存 在 坏 杠 杆 点 ， 最 小 一 乘 的 崩 演 点 是 1/n， 而 M 估计 的 骨 溃 点 难以 大 
于 30%。 为 了 得 到 具有 高 骨 省 点 的 稳健 估计 ，Rousseeuw 提出 了 最 小 中 位 方差 估计 
(LMS)G55] 。 它 的 目标 函数 是 : 











































































































. j 2 
min median(r;) 


在 这 里 median (02) 表示 残 差 平 方 的 中 位 数 。LMS 估计 的 崩溃 点 可 以 达到 5096. xXx dé 
稳健 估计 方法 的 可 能 达到 的 最 高 值 。 另 外 ，LMS 估计 对 量 测 值 的 奇异 点 和 高 杠杆 点 都 是 稳 
健 的 ， 这 样 的 例子 可 参见 文献 [336]。 然 而 ，LMS 估计 的 收敛 速率 较 慢 。 一 般 说 来 ，LMS 
方法 的 计算 时 间 与 量 测 样本 的 点 数 (no 的 立方 成 正比 。 为 此 ，Steiger 和 Steel 提出 了 一 个 
改进 算法 ， 其 计算 速度 与 [nlg (a) ]? 成 正比 G36] 。Massart 等 首次 将 LMS 估计 引入 化 学 计 
EFL, Rutan 等 将 LMS 估计 与 自 适应 Kalman 滤波 方法 用 于 消除 一 维 数据 的 奇异 点 的 情 
况 进行 了 比较 [8654 。Ukkelberg 和 Borgen 为 检 出 奇异 点 基于 LMS 估计 提出 了 一 种 稳健 的 交 
替 回 归 方 法 [369] 。 

该 算法 与 前 述 的 最 小 一 乘 完 全 一 致 ， 只 需 将 最 小 一 乘 的 目标 函数 Min> |r; | 改 为 Min 
median () 即 可 。 

(四 ) 最 小 修 齐 平方 法 (least trimmed squares, LTM) 
为 克服 LMS 估计 的 较 慢 收敛 速率 之 不 足 ，Rousseeuw5s40 提出 了 最 小 方差 修剪 估计 ， 
其 目标 函数 为 : 
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h 
min >, (人 
i=l 


在 这 里 G3), < Cri Jaia < id «x Cr? Jasi o 从 上 式 可 以 看 出 , 此 法 与 最 小 二 乘 类 似 ， 不 同 的 
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地 方 只 是 LTS 估计 只 取 了 一 部 分 残 差 较 小 的 来 进行 回归 LR (2201558067204, ]. PACA 
为 n 的 一 半 时 ，LTS 估计 的 骨 省 点 也 可 达到 50%， 但 是 它 的 收敛 速率 明显 加 快 。 











h 
该 算法 亦 可 使 用 前 述 的 优化 方法 来 实现 ， 只 需 将 目标 函数 改 为 min S, Gus 即 可 ， 故 
i 一 1 
此 从 略 。 


(五 ) 稳健 主 成 分 回归 法 (robust principal component analysis) 

由 Walczak 和 Massart 提出 了 一 个 稳健 主 成 分 回归 法 (RPCR)， 旨 在 构造 一 种 奇异 点 
的 稳健 检 出 方法 "J 。 他 们 的 方法 主要 基于 椭 球 多 变量 修剪 法 ?J (MVT 和 最 小 中 位 方差 
估计 (LMS) 法 。MVT 法 主要 用 于 得 到 一 个 稳健 的 离 差 矩阵 ， 继 在 此 无 奇异 点 干扰 的 离 差 
和 矩阵 上 进行 主 成 分 分 析 以 检 出 半 和 矩阵 的 奇异 点 ， 构 成 此 稳健 主 成 分 回归 法 的 第 一 步 。 接 着 ， 
采用 最 小 中 位 方差 估计 (LMS) 法 所 得 的 标准 化 残 差 来 检 出 量 测 矢量 y 中 的 奇异 值 。 

(六 ) 稳健 偏 最 小 二 乘法 (robust partial least squares) 

偏 最 小 二 乘 估 计 PLO 为 化 学 计量 学 中 的 一 最 常用 方法 。 由 Wakeling 和 Macfie 将 其 
稳健 化 5 。 他 们 将 PLS 方法 中 的 对 XX 和 Y EERDERE w Re 的 估计 过 程 稳健 化 ， 研 
究 结 果 表 明 ， 对 于 Y 矩阵 中 的 奇异 点 此 算法 是 有 效 的。 这 稳健 化 的 代价 是 有 关 和 荷载 拓 量 w 
之 间 的 正 交 关系 难以 保持 。 此 算法 是 为 对 X JY 矩阵 的 奇异 点 进行 独立 地 消除 而 设计 的 ， 
其 中 的 稳健 步骤 是 采用 了 由 Beaton 和 Tukey 提出 的 双 加 权 法 [373] 。 

(七 ) 降 维 处 理 的 稳健 方法 (robust methods of dimensional reduction) 

降 维 处 理 方法 是 化 学 计量 学 中 的 一 个 常用 的 分 析 方 法 ， 它 可 将 化 学 量 测 中 得 到 的 高 维 数 
据 转 变 成 为 易于 观察 的 低 维 数据 ， 在 多 元 校正 与 分 辨 及 模式 识别 中 得 到 了 广泛 的 应 用 。 在 这 
里 我 们 将 对 近年 来 出 现 的 一 些 稳健 降 维 方法 作出 简要 的 介绍 。 

l. 投影 寻 踪 法 

如 果 一 rcu UE 维 数 据 可 看 成 是 m 维 空间 的 一 个 点 ， 则 一 组 这 样 的 化 学 量 测 数 
据 可 看 成 是 m 维 空间 的 一 簇 点 云 。 降 维 处 理 技术 的 目的 RR eis 将 这 些 高 维 数 
据点 在 低 维 空 HR MN AN 文 些 高 维 点 云 的 基本 结构 。 近 年 来 在 多 元 统计 
研究 中 发 展 起 来 的 投影 寻 踪 法 PP) 就 是 这 样 一 种 降 维 技术 。 它 首先 定义 一 种 投影 指标 ， 
然后 ， 找 到 一 种 最 优 方法 来 实现 这 种 投影 。 不 同 的 投影 指标 就 定义 了 不 同 的 投影 寻 踪 方法 。 
Huber 对 PP 方法 进行 了 很 好 的 评述 565759 。Friedman 和 Stuetzle 则 将 PP 技术 加 以 拓 广 ， 提 
出 了 投影 寻 踪 回归 5 、 投 影 寻 踪 分 类 [79 和 投影 寻 踪 密度 信 计 5577] 

实际 上 ， 化 学 计量 学 中 常用 的 主 成 分 分 析 PCA) 本 身 就 是 一 种 特殊 的 PP 过 程 。 如 把 
1t^f S AB Ee X CELINE Bd n Am 维 数据 点 的 点 集 ， 即 量 测 和 矩阵 匀 中 每 一 个 行 矢量 {x;; 二 
Qr Xia Xi3 ,Xinm)'i 王 1,2,…,n} 看 成 是 一 个 数据 点 ， 同 时 记 量 测 和 矩阵 XX 的 协 方差 阵 为 
V. HV—X'X. Hài, Age cn A 表示 协 方差 阵 V 的 特征 值 ， 则 第 一 主 成 分 轴 al 就 是 将 
EME E X 向 其 投影 所 得 的 方差 最 大 的 方向 ， 即 



































































































































































































































àı =max(a| Va) =maxlaiX'Xaı) lai l| —1 








À» = max(ajVas) — max(alX'Xas) || a | —1 JfH(G2 | aı) 





àn —max(alVa,)-max(aLX'Xas)|| an | =1 Han | ajs 7» ama) 





实际 上 ， (a1 :0251** 3055 } 就 是 协 方差 阵 Y 的 对 应 于 S fiE f A;G1.2.7 m) 的 FIER 
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一 方面 ， 如 果 协 方差 阵 V 的 主 成 分 已 知 ， 则 协 方差 阵 V 可 以 由 主 成 分 重 构 : 


V= Saa! 


从 上 两 式 可 以 看 出 ,经 典 主 成 分 分 析 因 采用 最 大 方差 为 其 投影 指标 ， 故 对 奇异 值 很 敏 
感 ， 所 以 它 是 不 稳健 的 。 这 暗示 如 果 我 们 选择 稳健 的 投影 指标 ， 就 有 可 能 得 到 稳健 主 成 分 分 
析 。 有 趣 的 是 在 稳健 回归 与 投影 寻 踪 存在 着 密切 关系 [89 ， 正 如 Roosseeuw 评论 的 那样 ， 用 
投影 寻 踪 来 构造 高 崩溃 点 的 稳健 方法 是 在 人 意料 之 中 的 。 

2. 稳健 主 成 分 分 析 和 稳健 奇异 值 分 解法 

李 国 英和 陈 忠 链 提出 了 一 种 基于 投影 寻 踪 的 稳健 主 成 分 分 析 算 法 ， 他 们 将 Huber 的 M 
估计 的 分 散 度 作为 投影 指标 ”? 引 。 谢 玉 琉 等 也 提出 了 一 个 基于 投影 寻 踪 和 模拟 退火 技术 的 稳 
健 主 成 分 分 析 算 法 ， 最 小 中 位 矢量 作为 其 投影 指标 3 。 计 算 机 的 数值 模拟 结果 显示 出 此 稳 
健 主 成 分 分 析 方 法 对 非 正 态 分 布 数据 和 奇异 值 具有 很 强 的 抵御 能 力 。 同 样 是 基于 投影 寻 踪 ， 
Ammanni3 中 提出 了 一 种 新 的 稳健 奇异 值 分 解 方法 (RSVD)。 此 方法 由 两 步 迭 代 过 程 所 构 
成 : 对 数据 矩阵 进行 最 小 二 乘 回归 拟 合 ， 继 而 将 其 向 回归 超 平面 进行 旋转 ， 人 如 通过 稳健 的 
广义 M 估计 得 到 协 方差 矩阵 的 特征 值 和 特征 矢量 从 而 找到 描述 该 数据 阵 的 稳健 协 方 差 阵 和 
期 望 值 。 此 稳健 奇异 值 分 解 方法 (RSVD) 可 以 成 为 很 多 多 元 分 析 方 法 的 基础 ， 如 稳健 多 元 
回归 、 稳 健 多 元 判别 分 析 和 主 成 分 分 析 等 

近年 来 ， 在 统计 学 和 化 学 计量 学 的 研究 中 ， 稳 健 方法 的 研究 日 益 受 到 重视 ， 并 取得 了 显 
著 成 果 。 其 发 展 的 动因 主要 来 自 对 科学 和 工业 研究 的 实际 数据 解析 的 需要 ， 实 因 在 实际 数据 
中 ， 奇 异 值 和 非 正 态 数据 经 常 遇 到 ， 而 量 测 数据 的 正 态 性 却 又 经 常 是 很 多 现存 多 元 分 析 方 法 
的 数学 假设 基础 ， 这 就 使 结果 的 可 靠 性 受到 影响 。 为 克服 这 种 假设 与 实际 存在 差异 的 矛盾 ， 
稳健 方法 就 应 运 产生 ， 而 且 特 别 是 近年 来 得 到 飞速 发 展 。 化 学 计量 学 家 们 应 跟 上 这 一 形势 的 
发 展 ， 重 视 稳 健 方法 的 研究 和 在 化 学 数据 解析 中 的 实际 应 用 ， 特 别 地 ， 对 适合 于 化 学 数据 特 
征 的 新 的 化 学 计量 学 稳健 方法 的 研究 应 该 得 到 应 有 的 重视 。 
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化 学 模式 分 析 与 模式 识别 一 直 是 化 学 计量 学 研究 中 的 一 个 十 分 重要 的 内 容 ， 它 从 化 学 量 
Po Mode e Lune M uU I NN Hu 
会 性 质 ， 为 分 析 化 学 家 提供 了 十 分 有 用 的 决策 性 信息 。 模 式 分 析 与 模式 识别 的 计算 过 程 总 
说 来 可 有 如 下 步骤 : 根据 实验 得 来 的 一 批 多 变 $104 E 
物理 ) 模型 或 经 验 规 律 提 出 一 批 特 征 量 ， 在 此 基础 上 ， 进 一 步 进行 特征 抽取 和 必要 的 数据 预 
处 理 ， 以 求 得 合适 的 特征 量 一 一 张 成 模式 空间 或 特征 空间 ， 继 而 通过 机 器 学 习 的 方法 〈 模 式 
分 析 与 识别 ) 进行 训练 和 分 类 ， 并 采用 相应 办 法 对 所 得 模式 进行 校 验 ， 以 确定 模型 的 可 用 性 
和 可 用 范围 ， 得 到 根据 训练 或 分 类 所 得 的 模式 判 据 ， 即 可 对 未 知 样本 进行 分 析 和 判别 〈 或 称 
计算 机 预报 )。 此 过 程 可 用 图 7-1 表示 : 


原始 数据 THEN A 
原始 数 所 FERE T Tem 
UE 取 选 择 J | 模型 校 验 | 
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未 知 样本 





模式 识别 计算 过 程 示 意图 


本 章 将 对 这 几 个 步骤 分 别 进行 介绍 。 在 介绍 了 模式 空间 的 几 种 距离 与 相似 性 度量 、 特 征 
抽取 方法 及 模式 分 析 与 识别 的 数据 预 处 理 方法 的 基础 上 ， 对 目前 在 模式 分 析 与 识别 中 的 有 监 
督 的 模式 识别 方法 (判别 分 析 )、 无 监督 的 模式 分 析 方 法 ( 聚 类 分 析 ) 及 基于 特征 投影 的 降 
维 显示 方法 ( 既 可 用 于 有 监督 的 又 可 用 于 无 监督 的 模式 识别 ) 都 给 出 详细 的 介绍 。 男 外 ， 对 
于 近年 来 在 机 器 学 习 的 研究 基础 上 提出 的 新 型 模式 分 析 与 识别 的 方法 ， 如 人 工 神经 网 络 、 基 
于 全 局 最 优 算法 的 分 类 方法 、 分 类 回归 树 、 集 群 式 分 析 方 法 、 助 推 法 (boosting〉 等 ， 本 章 
亦 将 作出 必要 介绍 。 



































第 一 节 ”模式 空间 的 几 种 距离 与 相似 性 度量 


一 、 化 学 模式 空间 


任何 一 个 化 学 样本 、 生 物 样本 或 化 工 过 程 凤 可 用 一 组 参量 〈 或 矢量 x;) 来 表征 ， 即 
Xx; 二 [zi1,Xi2… za， 在 模式 分 析 和 模式 识别 的 文献 中 ， 这 种 参量 值 又 称 特征 或 样本 变 
量 。 在 许多 情况 下 ， 这 些 参量 实际 上 就 是 原始 化 学 量 测 数据 。 这 样 的 一 组 ”个 参量 就 构成 
了 化 学 模式 识别 空间 的 一 个 点 ， 即 一 个 维 的 化 学 模式 。 a 
的 n 维 空 间 ， 称 为 化 学 模式 空间 ， 或 简称 模式 空间 。 一 般 说 来 ， 因 高 维 模式 空间 提供 了 
多 的 信息 ， 故 有 可 能 解决 一 些 低 维 空间 中 难以 解决 的 问题 。 这 种 情况 通过 图 7-2 ae 
明 。 从 图 中 可 以 看 出 ， 在 一 维 空间 ， 即 沿 zi 轴 或 z* 轴 ， 单 用 zi 或 z* 均 无 法 区 分 A xX B. 
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但 在 二 维 
难 有 如 此 显著 的 改善 
度 越 大 ， 这 是 普 谢 的 规律 ， 如 可 找到 单 变量 
学 的 最 高 境界 ， 然 而 ， 实 际 中 的 村 
不 但 可 更 全 面 地 描述 和 表 和 
谱 指 纹 图 谱 来 控制 
别 ， 


P 





FH 10 化 学 计量 学 





| 分 析 化 学 


模式 空间 ， 我 们 可 以 由 一 


， 但 由 一 维 空 


条 直线 对 A 和 B 加 以 区 分 。 一 般 而 言 ， 仅 增加 一 个 参量 ， 
= 间 (化 学 家 最 熟悉 的 ) 过 渡 到 n ASN, n 越 大 ， 改 善 程 
(选择 性 变量 ) 即 可 区 分 不 同样 本 ， 当 是 分 析 化 

本 复杂 多 变 ， 采 用 多 变量 来 表征 样本 似乎 更 加 合理 ， 这 样 
F 样 本 ， 直 接 对 样本 进行 定性 分 析 ， 而 且 还 可 进一步 采用 中 药 的 色 
药材 及 产品 质量 ; 对 于 化 工 生产 过 程 ， 通 过 对 其 参数 进行 模式 分 析 与 识 
还 可 发 现 化 工 生产 过 程 各 参数 变量 之 间 的 相互 协同 效应 ， 以 找到 控制 化 工 过 程 优化 的 关 
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键 节 点 ;对 于 系统 生物 学 ， 通 过 对 各 种 组 学 数据 进行 模式 分 析 和 数据 发 据 ， 则 可 发 现 表 生 





FE 不 


同 生 物 样本 的 生物 标志 模式 或 生物 化 学 标志 
目的 ， 为 系统 生物 学 中 的 基因 











物 ， 以 达到 诊 


会 断 疾病 、 发 现 4 
HE. 、 代 谢 组 学 和 和 蛋白 组 学 的 研究 提供 科学 依据 。 





E 物 化 学 反应 途径 等 





ENS ”在 二 维 空间 可 和 铺 


二 、 模 式 空 间 的 距离 与 相似 性 度量 


化 学 模式 识别 的 基本 假设 是 相似 的 检 
在 模式 空间 的 远近 ? 这 里 可 应 用 在 几何 学 中 
性 ”相反 的 “ 相 异 性 ”的 度量 使 月 
空间 的 距离 : 

QD D;zo0; W x;—x;. Di; —0, 














本 在 模式 空 


E 区 分 一 


的 距离 的 概念 


维 空间 不 可 分 的 二 类 样本 


间 处 于 相近 的 位 置 ， 如 何 度量 两 个 样本 
念 ， 它 在 模式 识别 中 是 作为 与 “相似 
目的 ， 任 何 满足 下 述 三 个 条 件 的 “ 相 蜡 必 








E” 均 可 定义 为 模式 

















© Dig-—D. 

ODarDaicn 
条 件 中 和 条 : 件 加 表明 距离 应 取 正 值 且 是 对 称 的 ， 条件 龟 是 “度量 ”距离 与 “ 非 度量 ”距离 的 
差异 在 欧 氏 空间 中 ， 两 点 间 的 直线 距离 恒 小 于 或 等 于 其 他 路 径 的 长 度 ， 


下 面 介绍 几 种 在 化 学 模式 识别 中 常用 的 模式 距离 。 


(D Minkowski 距离 Minkowski 距离 是 一 种 广义 距离 ， 对 于 nn 维 空 


xix; ， 定义 为 : 
D ij ,Minkowski 一 [ 


特殊 地 ， 当 d —2 时 ， 即 得 我 们 常用 的 欧 氏 日 


Dij. Minkowski mE [之 xi 


2G g (OX jh )4 ]! 


HEP (Euclidian H 





Xik)2 ]17 


间 的 两 个 模式 矢 


/d 


(7-1) 





BEL): 


2 


(7-2) 
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(2) Manhatten 距离 


Dij, Minkowski = 2) | Xa — Xj (7-3) 
(3) Haming 距离 
Dij, Haming = D XORG a — xj? (7-4) 
(4) Tanimoto 距离 
Dj, Timo —1 — [ 9; AND a — zj)/ S) ORG 4 —x42] (7-5) 


ERR, AND, OR 和 XOR 分 别 为 逻辑 操作 的 “与 ”、“ 或 ”和 “排斥 ”。 所 以 ， 
Haming 距离 和 Tanimoto 距离 一 般 多 用 于 定性 数值 ， 即 0，1 数据 类 型 之 中 。 

(5) Mahalanobis 距离 ”如 果 样 本 是 服从 多 元 正 态 分 布 的 ,一般 还 可 采用 Mahalanobis 
距离 ， 习 惯 上 称 为 马 氏 距离 。 其 定义 为 : wx, x; 是 均值 为 k、 协 方差 阵 为 V 的 母体 G 中 
的 样本 ， 则 它们 之 间 的 Mahalanobis 距离 为 














Dij. Mahalanobis — (x; Xj yvy (x; Xj ) (7-6) 
而 x; 与 母体 G 的 距离 则 为 它 与 均值 4 的 距离 ， 
Di, Mahalanobis — (x; — kW)'V (x; — p) 


值得 指出 的 是 ， 马 氏 距 离 在 判别 分 析 中 的 距离 判别 中 具有 十 分 重要 的 作用 。 图 7-3 示 出 了 马 
氏 距 离 的 几何 意义 。 从 图 可 以 看 出 ， 如 果 样 本 落 在 同一 分 布 之 中 ， 则 其 与 整体 分 布 的 马 氏 距 
离 将 很 小 ; 如 果 样 本 落 在 分 布 之 外 ， 则 其 与 整体 分 布 的 马 氏 距离 将 很 大 ， 分 布 的 方差 在 马 氏 


距离 的 定义 中 起 到 至 关 重 要 的 作用 。 
cE | 


小 
































> 
xi 


ED 马 氏 距 离 的 几何 意义 示意 图 





除 作 为 “ 相 异 性 ”度量 的 距离 外 ， 还 可 以 定义 在 此 基础 上 的 “相似 性 ”度量 。 模 式 矢量 
x, Sx, 的 “相似 性 ”度量 Sy 可 定义 为 : 


S ij — L= [Dj . Minkowski / max C D Minkowski 2] (7-7) 


式 中 , Max (D minkowski) 是 所 有 被 研究 的 数据 中 相距 最 远 的 两 个 模式 矢量 之 间 的 距离 。 显 
然 ， 对 于 同一 模式 矢量 ，S; 二 1， 即 它们 完全 相似 ， 实 因 Dj; —05 对 于 该 数据 集中 相距 最 
远 的 两 个 模式 矢量 ，Sj 二 0， 即 最 不 相似 ， 实 因 Dj, — max(D)。 

男 外 ， 常 用 的 还 有 夹 角 余弦 和 相关 系数 。 

夹 角 余弦 的 定义 为 : 
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cos(a;; ) 
>ja ik 2x5 
k=1 k=] 
如 进行 谱 图 比较 时 ， 此 夹 角 余 弦 是 一 个 很 好 的 相似 性 度量 指标 。 


相关 系数 的 定义 为 : 
> Ga —m;)rg,y —mj) 
k—1 


3 camo J Cz; — mj)? 
k=1 k=1 





Y ij 








Xm. m; Fl m ; 分 别 表 示 第 i 个 和 第 7 个 样本 的 均值 ， 即 x; 二 (2x)/n, k=l, 


2. ctt. n, 





文献 [1] 对 各 种 距离 和 相似 系数 作 了 一 个 汇总 介绍 ， 有 兴趣 对 此 人 研究 的 读者 可 参阅 该 文献 。 





第 二 ”特征 抽取 方法 


选取 合适 的 特征 量 ( 张 成 合适 的 特征 空间 )， 是 模式 识别 工作 成 败 的 关键 ,特征 量 的 选 





取 标 准 可 分 为 化 学 (或 物理 ) 的 和 数学 的 两 方面 。 化 学 (或 物理 ) 的 选取 标准 基于 对 所 处 理 
的 信息 的 本 质 或 主要 因子 的 理解 。 这 方面 因 其 依赖 具体 问题 的 实际 情况 ， 在 此 无 法 指出 普遍 
有 效 的 方法 。 由 于 对 所 处 理 的 信息 了 解 不 深 ， 而 且 往 往 许 多 因素 之 间 的 相关 关系 及 程度 亦 不 






































能 肯定 ， 因 此 人 们 通常 是 先 根据 化 学 (或 物理 ) 的 选取 标准 尽 可 能 把 一 切 可 








能 有 关 ， 又 易于 


获得 的 因素 (特征 量 ) 都 提出 来 ， 然 后 借助 于 数学 方法 ， 筛 选 出 对 分 类 作用 大 的 特征 量 GK 
成 合适 的 特征 空间 ) 供 分 析 使 用 。 在 实际 的 计算 中 ， 人 们 总 是 力图 抛弃 那些 对 分 类 作用 不 大 
的 特征 量 ， 使 特征 量 的 数目 〈 在 保证 良好 的 分 类 效果 的 前 提 下 ) 减 到 最 少 。 这 是 因为 : 中 多 























余 的 特征 量 不 但 没有 益处 ， 而 且 可 能 干扰 分 类 过 程 ; 包 为 了 保证 样本 数 和 模 对 














值 大 于 3 (最 好 是 大 于 10)， 最 好 使 模式 空间 维 数 〈 特 征 量 数 ) 降 至 最 小 。 
上 述 特征 抽取 的 说 法 似乎 与 前 节 中 讨论 的 维 数 越 高 ， 模 式 识别 方法 的 识 
相悖 。 实 际 上 ， 在 这 里 有 一 个 特征 变量 本 身 的 判别 能 力 和 它们 之 间 存 在 相关 


























式 空 间 维 数 的 比 





别 能 力 越 强 之 说 
的 问题 。 可 以 这 


样 说 ， 如 果 每 个 特征 变量 都 具有 一 定 的 判别 能 力 且 是 独立 的 ， 这 时 维 数 提高 模式 识别 方法 的 


识别 能 力 将 增强 之 说 是 正确 的 ， 因 为 每 增加 一 维 就 增加 了 新 的 信息 ; 然而 ， 如 果 特 征 变量 相 











互相 关 ， 此 时 ， 多余 的 特征 量 不 但 没有 益处 ， 而 且 可 能 干扰 分 类 过 程 ， 这 是 
量 并 未 增加 判别 信息 ， 而 只 是 增加 了 运算 量 ， 还 可 带 来 不 必要 的 过 拟 合 风险 












































由 于 增加 特征 变 
.也 正 是 因为 这 





一 点 ， 特 征 抽取 是 模式 识别 工作 成 败 的 一 个 关键 。 因 篇 幅 所 限 ， 在 此 不 能 给 出 更 多 的 讨论 ， 











有 兴趣 的 读者 可 参阅 文献 [2]。 下 面 介 绍 两 种 单 变量 的 特征 抽取 方法 。 





设 原 始 的 模式 矢量 含有 n 个 参量 ， 即 Xi 一 (Zi Tiz" ’T in) o 在 所 有 的 样本 中 ， 方差 














较 大 的 参量 ， 即 不 同样 本 取 值 差异 较 大 的 参量 ， 对 分 类 应 当 贡 献 较 大 。 反 之 











的 方差 很 小 〈 极 端的 情况 下 是 该 变量 对 所 有 的 样本 取 相 同 数值 ， 方 差 为 零 )， 这 种 变量 对 于 

















分 类 而 言 显 然 无 意义 。 因 此 可 以 将 变量 i 的 方差 V; 作为 权 因 子 ， 来 度量 变量 i 的 重要 性 。 


E D; =m;)? 


n—1 


Vj 





(7-8) 
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其 中 mm; 为 变量 i 的 均值 


在 选择 变量 时 ,将 Vj; 小 的 变量 优先 弃 去 。 
对 于 训练 集 包含 已 知 分 类 的 样本 ， 在 这 里 介绍 一 种 简单 有 效 的 特征 抽取 的 方法 ， 它 可 以 


























容易 辨别 出 特征 变量 对 分 类 的 贡献 大 小 。 这 种 评估 特征 变量 的 标准 称 为 Fisher 权重 : 
| nj —mj;)* (1-9) 
Vii d- Vio 
AP, om; Em; TIEKE PK 1 和 类 2 的 i 参量 的 均值 ， Vi 与 Vi 是 这 两 类 样本 
计算 出 的 i 变量 的 方差 。 权 重大 ， 表 明 该 变量 i 对 两 个 类 而 言 差 别 大 ， 应 优先 选用 。 
第 三 节 模式 识别 的 数据 预 处 理 方 法 


在 初步 选取 特征 变量 之 后 ， 模 式 识 别 分 类 计算 之 前 ， 有 几 种 应 该 采取 的 预 处 理 方 法 ， 使 
模式 空间 样本 代表 点 分 布 结构 改变 ， 变 得 更 有 利于 作 分 类 运算 。 例 如 ， 各 特征 变量 取 了 不 同 
量 纲 的 数值 时 ， 如 果 有 的 变量 取 的 绝对 值 很 大 ， 而 男 外 一些 变量 的 绝对 值 很 小 ， 则 在 分 类 过 
程 中 不 利于 获得 最 佳 结果 ， 因 此 应 当 用 标 度 化 方法 使 各 变量 的 变化 幅度 处 于 同一 水 平 上 。 下 
面 介 绍 几 种 这 样 的 标 度 化 方法 。 

(D 范围 标 度 化 


X 


















































^ij. new 一 rij, old ij, min) / (Xi, max Tij, nin? (7-10) 

RP, £j oa 代表 第 ;个 样本 的 原 有 的 第 7 分量 ; zj ,sew 代表 第 i 个 样本 经 换算 后 的 第 j 
分 量 ; Lij ,max 代 表 原 有 的 第 7 分 量 的 最 大 值 ;， ziimn 则 代表 原 有 的 第 7 分 量 的 最 小 值 。 范 围 
标 度 化 的 一 个 缺点 是 ， 若 数值 集合 中 有 一 个 数值 很 大 ， 则 其 余 各 值 都 会 相差 不 大 。 


(2) 自 标 度 化 


第 


H 




















Tij, se = Gg, oa — m; )/Vj (7-11) 


AF, V; 为 变量 7 的 方差 ; m; NEEJ 的 均值 。 自 标 度 化 是 一 个 很 好 的 方法 ， 经 此 变 
换 后 ， 各 变量 在 分 类 过 程 中 影响 程度 相同 。 
(3) 标准 化 预 处 理 ”标准 化 预 处 理 的 方法 很 多 ， 对 不 同 的 仪器 有 不 同 的 方法 ， 如 在 色谱 






































数据 中 常 采用 面积 归 一 化 预 处 理 的 方法 ， 以 减 小 进 样 误 差 的 影响 ， 即 
dn nu = E 27 borum (7-12) 
对 于 质谱 数据 则 常 采用 最 大 归 一 化 预 处 理 的 方法 ， 即 
Zij, new 一 Zi old/ maXGr jj, oa) (7-13) 


(4) 变换 法 ”在 化 学 模式 识别 中 ， 还 常 采 上 月 


日 变换 方法 来 对 数据 进行 预 处 理 。 常 用 





Tij, new = Xj, od (7-14) 
Tij, new —lgC jj, old 2 (7-15) 
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以 达到 改变 数据 标 度 的 目的 。 

(5) 组 合法 ”根据 不 同 的 情况 ， 将 原来 的 变量 ， 按 照 一 定 的 方式 ， 如 变 
减 或 变量 相 比 等 进行 组 合 以 产生 新 的 变量 。 

总 之 ， 对 于 不 同 的 情况 可 以 采用 不 同 的 预 处 理 方法 ， 这 不 但 需要 正确 理解 各 种 预 处 理 方 
法 的 物理 意义 ， 同 时 也 必须 结合 不 同 问题 的 具体 化 学 经 验 来 对 原始 数据 进行 预 处 理 ， 不 可 统 
而 论 之 。 








相 加 、 变 量 相 


hein 




















第 四 节 有 监督 的 模式 识别 方法 一 一 判别 分 析 法 


有 监督 的 模式 识别 的 分 类 方法 很 多 ， 这 类 方法 的 总 体 思 路 都 是 用 一 组 已 知 类 别 的 样本 作 
为 训练 集 ， 即 用 已 知 的 样本 进行 训练 ， 让 计算 机 向 这 些 已 知 样 本 “学 习 ”， 这 种 求 取 分 类 咒 
的 模式 识别 方法 称 为 “有 监督 的 学 习 ” 或 “有 老师 的 学 习 ”， 这 里 训练 集 就 是 老师 ， 并 由 这 
个 训练 集 得 到 判别 模型 。 这 类 方法 一 般 可 分 为 参数 法 和 非 参 数 法 两 类 ， 其 中 参数 法 一 般 由 统 
计 学 家 提出 ， 其 判别 效果 的 好 坏 依赖 于 样本 是 否 符合 假设 的 统计 分 布 ， 而 非 参 数 判别 分 析 法 
多 由 实验 科学 家 或 计算 机 模式 识别 专家 提出 ， 对 样本 分 布 没有 特殊 要 求 。 下 面 将 介绍 几 种 最 
常用 的 方法 ， 包括 几 种 经 典 的 参数 方法 ， 如 距离 判别 分 析 法 、Fisher 判别 分 析 法 、Beayes 
判别 分 析 法 、 逐 步 判 别 分 析 法 ， 以 及 几 种 非 参 数 方法 ， 如 线性 学 习 机 、K 邻 域 判别 法 、 势 
函数 判别 法 、 人 工 神经 网 络 判别 法 。 

为 检测 所 得 判别 模型 的 判别 能 力 ， 还 常用 另外 一 组 已 知 类 别 的 样本 组 成 测试 集 。 在 训练 
中 所 得 的 正确 判别 率 称 为 识别 率 ， 而 用 测试 集 所 得 的 正确 判别 率 则 称 为 预测 率 ， 一 般 说 来 ， 
预测 率 对 模型 好 坏 的 判别 比 识别 率 更 重要 些 。 


一 、 距 离 判别 法 


【基本 思路 】 

判别 问题 用 统计 学 家 的 语言 来 说 就 是 ， 有 个 总 体 G1，G2，*…，Gh， 它 们 的 分 布 函数 
分 别 是 Fi(x) ，…, F(x)， 其 中 x 为 n 维 的 样本 矢量 。 对 给 定 的 一 个 样本 x， 判别 分 析 
法 的 目的 就 是 要 判决 它 来 自 哪 个 母体 。 一 个 最 直观 的 方法 就 是 计算 样本 x S)Gi. Go. nns 
G4 的 距离 d(x ，G1) ,d(x，G2) ，…, d(x，Gh) ， 然 后 根据 样本 x 到 它们 的 距离 来 确定 样 
本 的 归宿 ， 即 


X C Gi. 如 dis G;) —miníd(x. G1); d(x, G3), idt d(x, Gx )} 


这 也 就 构成 了 距离 判别 的 基本 思路 。 

下 面 ， 我 们 将 以 两 个 总 体 的 情况 来 具体 说 明 。 设 有 两 个 正 态 分 布 总 体 G 和 G* ， 它 们 的 
35348 4r 912g u CO 和 下 2 ， 协 方差 阵 分 别 为 Vi 和 Vs 。 对 给 定 的 一 个 样本 x， 距离 判别 的 方法 
就 是 根据 它 到 母体 的 距离 来 判决 它 来 自 Gi 还 是 G* ， 即 ， 

xC€Gi, 如 d(x, Gio « d(x. G2) 
xC€Gs. 如 d(x, Gi) 2» d(x. G2) 


此 时 ,问题 是 该 采用 什么 样 的 距离 来 定义 样本 到 母体 的 距离 。 对 于 这 样 具 有 分 布 函 数 的 母 
体 ， 前 节 讨 论 的 Mahalanobis 距离 比较 合适 。 下 面 将 简要 介绍 距离 判别 的 基本 算法 。 

【基本 算法 】 

d) 设 有 两 个 正 态 分 布 总 体 G1 和 Gs， 它 们 的 均值 分 别 为 pV 和 jp'”， 协 方差 阵 相等 ， 
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即 都 为 Y 的 情况 。 
C 计算 任意 样本 x 到 母体 G1 和 Gs 的 Mahalanobis 距离 。 样 本 x 到 母体 G1 和 Gs 的 距离 
实际 上 是 通过 样本 x 到 该 母体 的 均值 矢量 上 2 flu? 的 Mahalanobis 距离 来 实现 的 ， 即 





d?(x,Gi)—G—pO V^ lx ) 
d(x,G2)= (x> uP V !(x—-uO) 
© 计算 d(x,G1) 一 d(x,Gs), 即 


d? Cx G1) — d? (x ,G2)= Gc >p O )'V 1 (x —uO ) (xu V l (x ^4 0? ) 





= 2[x (qu CO Fu ?»/2]1V^7 (iO — u?) 
S d? (x ,Gi) —d? (x ,G2)=w (x), uV +y? )/2—pn , 即 有 





o (x) —2[x — (iO p OQ )/2] V 71 (aC) p?) 
— —2(x—u)V (u —yO) 
C 建立 相应 判别 准则 ， 即 
XxXEG1， 如 mw(xz)<0 
x€Go. llo(x)20 


对 于 母体 协 方差 阵 相 等 的 情况 ,距离 判别 函数 是 线性 的 。 

(2) 设 有 两 个 正 态 分 布 总 体 G1 和 G*， 它 们 的 均值 分 别 为 由 2 和 上 522 ， 协 方差 阵 不 等 ， 
即 分 别 为 Vi 和 Vs 的 情况 。 

D 计算 任意 样本 x 到 母体 G; 和 G， 的 Mahalanobis E Ej : 








有 
d? (x ,G)=(x— u? Vs !ix—pu) 
© 建立 相应 判别 准则 ， 即 


x€Gi. 如 dx,G1)<d (x.Go) 
x€Gs,. 如 d? (x ,G1)>d? (x,G2) 


对 于 母体 协 方差 阵 不 等 的 情况 ,判别 函数 将 是 非 线性 的 。 
上 述 算法 很 容易 拓 广 至 多 个 母体 判别 。 


二 、Bayes 判别 法 

















Bayes 判别 法 的 主要 思路 是 建立 在 条 件 概率 和 统计 判决 理论 的 Bayes 定理 之 上 (参见 第 
四 章 )。 在 介绍 Bayes 判别 法 之 前 ， 先 给 出 一 个 有 关 空 间 划 分 的 定义 。 

定义 : 令 Di. De D, 是 nn 维 实数 空间 的 子 集 ， 如 果 它 们 互 不 相交 ， 且 它们 的 和 就 是 
TEAM n 维 实数 空间 ， 则 称 DiD, De 是 此 ?7 维 实数 空间 的 一 个 划分 。 前 节 讨 论 的 距离 判 
别 法 ,实质 上 也 是 建立 了 这 样 的 一 种 划分 。 

【基本 思路 】 

设 有 个 母体 G1,Gs,…,G， 它 们 的 分 布 密度 孔 数 分 别 是 fa. cn. fax) (不 一 
定 是 正 态 分 布 )， 其 中 x Mon 维 的 样本 矢量 。 另 外 ， 还 假定 这 个 母体 出 现 的 验 前 概率 为 
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qis qz cU qus LG, j) 表示 样本 x 来自 G; 而 误 判 为 G; 的 损失 ， 则 对 给 定 的 一 个 样本 
x. Bayes 判别 法 的 核心 就 是 找到 一 个 划分 ， 使 得 在 此 划分 的 基础 上 计算 样本 x 被 误 判 的 平 
均 损 失 达 到 最 小 ， 即 使 得 由 式 〈7-16) 表 出 的 平均 损失 达到 最 小 : 








k n 
g Di Da D= Dq DLG pG | i Di Dos Da) (7-16) 


i=1 j=l 


RP, pG HDi Ds n DORREZ x SE BG; 而 误 判 为 G; 的 概率 , 即 





PG li Dis Do DO [, fi(x)dx (7-17) 


TUR f; (x) 在 划分 D; 上 的 积分 , 即 来 自 G: 的 样本 x 出 现 于 划分 D; 中 的 误 判 概率 。 下 面 
以 & 王 2, 即 两 类 判别 情况 来 加 以 具体 说 明 。 

【基本 算法 】 

Bayes 判别 可 通过 以 下 步骤 来 实现 。 

(1) 根 据 经 验 确 定 两 个 母体 出 现 的 验 前 概率 为 gl ,qs。 

(2) 根 据 判 别 要 求 确定 误 判 损失 函数 工人 ij) 值 (i 二 1,2;j 二 1,2), 如 无 特殊 要 求 ,一 般 设 

LG.j)—Ój 

Bl. x €G2.L (1,22 —50;x € Ge. L (1,22 —1, 

















(3) 计 算 Bayes 判别 函数 w; (x) (1 1.22: 
wi (2-4 LO.2 fi (7-18a) 
ws (x)=qL (2,1) f2 (x) (7-18b) 


如 果 w (x) 二 wz Cx), MER x 属于 Gi1, 反 之 ,样本 x 属于 G*。 由 这 样 的 判别 函数 ,可 以 得 到 
一 个 划分 Di ,D，。 

在 上 述 Bayes 判别 中 ， 因 存在 一 个 分 布 密度 函数 f;(x)， 它 是 不 确定 的 ,一般 都 假设 每 
一 类 的 样本 服从 多 元 正 态 分 布 ， 所 以 ， 在 介绍 Bayes 判别 的 书 和 文献 中 ， 一 般 都 是 以 多 元 正 
态 分 布 密度 函数 代入 上 式 来 进行 计算 的 ， 即 


fi1Cx)={1/[L C2)" |V| Bexp( —L Ge—u 5? WV xu »1/2) (7-19a) 





























fo (/LG1)"2 |V; |2] jexpi—[ (xu 2) Vz xu? )]/2} (7-19b) 


AP, Vi, V OIRRE XAP KODA, uV, p? 分 别 表 示 第 一 类 和 第 
二 类 的 均值 向 量 。 这 样 ， 前 述 的 Bayes 判别 函数 w: (x) G—1. 2) 可 表述 为 








w GO —q1L (0,2) (A/LQ10"7? |v | V? ]) 
exp( —[G—p O Vi! —paO »]/2) (7-20a) 
wa x) —95L (2,1) (1/[ 2r)” |V | V2 ]) 
exp( — [x —u P? )'Vgz! (x —, O ) ]/2) (7-20b) 
XBOLG.o0-95. MALA, DALO, DEKI, SE EXE 


w GO —qi(1/LOrm"?|v, ]v?] 
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exp( —LGr—p (P )tV;!G —pn 9) ]/2) (7-21a) 
w (x) =q; (1/L (31077 |V | V? ]) 
exp(—LG —gu Va x —g ? »]/2) (7-21b) 
WMR wx) <w (x), Hl 
qı [Vi |Z expé—[(x —u VV (xy? )]/2}< 


q2 [V5 |2 expt — [Cx —u O )'V ~! (x—pO )]|/2) 


qı |Val]'Pexn(—tx—p ^ Vi U—n 9») 
q2 |Vil'?exp(—(x—pO )'Vilix—pgO)) 


则 样本 x 属于 G1。 一般 说 来 ,gq1/gs 可 看 成 常数 ,如 设 为 c, 则 上 式 可 变 为 


|V |? exp( — (x —p D tV; 71 (c— a 0 ) ]/2) 
|Vil?exp( —[(Gc— p VV (x—u® )]/2} 


如 再 对 此 式 加 一 假设 , 即 设 第 一 类 和 第 二 类 的 协 方差 阵 为 等 协 方差 阵 ,此 时 有 


V2=V1=V 








>t (7-22) 











则 式 (7-22) 还 可 简化 为 
exp( — [(x —g 2 )ty-1 (x—puO)]/2) 





ap U pOr a a pran) 
亦 即 
exp{— (xp OV Tx) rE Caes Y) (7-24) 
对 式 (7-24) 两 边 取 对 数 
U——u'? DIV 一 及 20 ) 十 (一 RDDIV asu) >g) (7-25) 
亦 即 


[x> (uV +u? )/2]Vv^! (u? —u CO? )21gCc) 


当 两 类 样本 的 验 前 概率 相等 时 ， 即 gi =g, lg(c) 二 0， 此 时 Bayes 判别 与 前 节 讨 论 的 距离 判 
别 完全 一 致 。 这 说 明 当 两 母体 验 前 概率 相等 ， 且 误 判 损失 函数 为 常数 时 ， 上 距离 判 别 与 Bayes 
判别 是 完全 等 价 的 。 


三 、Fisher 判别 法 


Fisher 判别 法 是 借助 方差 分 析 的 思想 来 导出 判别 函数 的 。 它 力争 找到 一 个 最 佳 线性 投影 
方向 ， 使 得 沿 此 方向 投影 ， 可 使 类 间 方 差 与 类 内 方差 的 比值 达到 最 大 ， 故 Fisher 判别 法 一 
般 是 采用 线性 判别 函数 来 进行 判别 的 。 

【基本 思路 】 

Fisher 判别 法 的 基本 思路 是 先 计算 出 不 同类 别 的 样本 的 组 间 方 差 和 组 内 方差 ， 而 后 构造 
一 个 组 间 方 差 和 组 内 方差 的 比值 。 显 然 ， 如 能 找到 一 个 分 类 方法 ， 可 使 得 组 间 方 差 和 组 内 方 
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差 的 比值 达到 最 大 ， 当 然 也 就 找到 了 一 个 最 佳 的 判别 方法 。 
RA k 个 母体 CG1，Ca ，…，GA ， 它 们 的 相应 均值 和 协 方差 阵 分 别 为 分 布 密度 函数 分 别 


是 六 TD aO peu O Va Ya。 任 给 一 个 样本 矢量 x , 它 的 一 个 线性 函数 上 
表 出 , 则 母体 G; 的 均值 和 方差 的 线性 函数 可 表示 为 : 








H u(x)=u'x 





ei =E[u (x) |G; ]=u'p ? G—1,2,7. 8) 


v;i?-—Var[u(x)|G; ]|-u'Viu (i1=1,2,.…,k) 


iu 
k k 
Bo= Mei; 一 >)(ei)/R]? (7-26) 
i=1 1 一 1 
k k 
E,— Mv? =) u'Viu (7-27) 
i=1 i=l 


[d e; 和 w? 都 是 标量 ， 所 以 Bo 就 相当 于 一 元 方差 分 析 中 的 组 间 方 差 总 和 ，E。 就 相当 于 组 内 
方差 的 总 和 。 如 选择 一 个 u 使 


DM 














ACu) — Bo/Eo (7-28) 
达到 极 大 ， 这 个 wu 就 是 要 寻找 的 最 佳 投影 方向 。 令 
pP m? "HE 
6:— [pn^ , pO , =, y] 一 pat pat ik pat 
un? n^ gs ®© 
则 
B—0'[I—(/*)J ]8 (7-29) 
式 中 , 工 为 & KAMERE, JIk 阶 纯 1 矩阵 ， 即 
1 ] we 1 
icy dq. eg qe ; ; U 
ipy 
此 时 ， 有 
Bo —u!Bu—u'9'|I—(1/5)J Ou 
—u'0'0u —(1/k)u'0'JOu 
p 
On 
=[u'u , u'u? , =, utu? ] —(1/k)u'®O'JOu 
La y 
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k 
— Me -Xe )/k]? 


i=1 = 





在 上 述 计算 时 ,利用 的 是 方差 平方 和 的 分 解 性 质 , 即 其 平方 和 的 交 义 项 等 于 零 的 性 质 。 另 外 ， 

















令 

E= Ùv, 
则 B 

k k 
E= 2i m u'V;u—u'Eu (7-30) 

T4 Au) —Bo/Es— (Qi Bu) / Cu Eu) 
对 ADRE, BR 8LAGO ]/8u =0, IER A 

|B—AE|—0 (7-31) 
JR BI A(w) 的 极 大 值 为 上 述 方程 的 最 大 特征 根 ,而 此 最 大 特征 根 所 对 应 的 特征 向 量 即 为 最 佳 投 
影 方向 。 下 面 将 以 两 类 判别 情况 来 说 明 Fisher 判别 法 的 基本 算法 , 拓 广 至 多 类 判别 是 显然 
的 。 


【基本 算法 】 

对 于 两 类 来 自 不 同 母体 的 样本 ,zf ox (P x5 see x DRE D ux ax sex D LER 
x? G—1,2:1j — 1,2. n VRRP i 类 第 j AREIS uO up OD 和 Vi ,Vs 分 别 表示 此 两 
类 样本 的 均值 向 量 和 协 方差 阵 。Fisher 判别 可 通过 以 下 步骤 来 实现 。 

(1) 计算 此 两 个 母体 样本 的 类 间 方 差 B RANZ E: 


B=(1/2) (DD ) (y? —y O2 5t 











E =V; +V: 
则 此 时 有 
Kupe e UE 
u'Eu u'(Vı -V»2u 
(2) 计算 GL AGO ]/8u ,并 令 其 等 于 零 , 可 得 
(VitVa ) 一 及 人 — p”? (7-32) 
即 
u=(Vi 4V2) (uV —uO) (7-33) 


(3) 计算 Fisher 判别 函数 w (x): 
o Ge —u'(x—pi) 


RP, u= 0/2) (aO —BO )。 如 果 w(Cxz) 过 0, 则 样本 x 属于 Gi, 反之 ,样本 x JR T Gs. 
由 这 样 的 判别 函数 ,可 以 得 到 一 个 划分 Di ,D，。 
































Di={x : u'(x—u)>0}, D:={x : u'(x—p)sz0J 
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在 此 是 从 母体 分 布 并 假设 它们 的 均值 向 量 和 协 方差 阵 已 知 来 讨论 的 ， 而 在 实际 的 应 用 
中 ， 这 些 参数 如 均值 向 量 和 协 方差 阵 都 是 通过 样本 估计 而 得 ， 如 设 样 本 均值 向 量 和 样本 协 方 
差 阵 分 别 为 xT; 和 S; (i 二 1,2), 则 有 








Vi —[1/G, —1)]S; (7-342) 
V; —[1/G5 —1)]S; (7-34b) 
所 以 ， 








(Vit+V;)=[1/(ni 1)]Si1 


将 式 (7-35) 代 入 式 (7-33), 男 外 ,再 以 xi Ix» 代替.'?,p'”, 即 可 得 到 实际 样本 的 判别 函 
实际 上 ，Fisher 判别 法 的 计算 很 简单 ， 即 只 需 计 算出 相应 不 同类 别 样本 的 均值 向 量 和 协 
方差 阵 ， 就 可 容易 得 到 Fisher 判别 函数 。 


四 、 逐 步 判 别 分 析 法 


如 在 特征 抽取 中 讨论 所 述 ， 在 实际 的 判别 分 析 中 ， 人 们 总 是 力图 抛弃 那些 相互 相关 而 对 

分 类 作用 不 大 的 特征 变量 ,使 特征 变量 的 数目 (在 保证 良好 的 分 类 效果 的 前 提 下 ) 减 到 最 
少 。 这 是 因为 : 多 余 的 特征 变量 不 但 没有 益处 ， 而 且 可 能 干扰 分 类 过 程 ;@ 为 了 保证 样本 
数 和 模式 空间 维 数 的 比值 大 于 3 (最 好 是 大 于 10)， 最 好 使 模式 空间 维 数 (特征 量 数 ) 降 至 
最 小 。 本 节 要 讨论 的 逐步 判别 分 析 法 就 是 这 样 一 种 方法 。 

为 检验 所 含 特征 变量 对 判别 效果 的 显著 性 ， 有 必要 在 此 先 介绍 关于 判别 检验 的 两 个 统计 
及 其 检验 方法 。 

1. T WE 

T? 统 计量 一 般 可 用 来 检验 两 类 样本 之 间 的 判别 效果 。 人 TT? 统 计量 本 质 上 是 用 来 进行 均值 
癌 量 的 检验 的 ， 它 可 用 于 检验 两 个 均值 向 量 是 否 具有 显著 性 差异 ， 即 检验 是 否 有 


(2) 


[1/(ns—1)]S; (7-35) 


















































[s 


























xD =x 


试想 如 果 两 个 均值 向 量 不 具有 显著 性 差异 ， 则 很 难 认为 它们 是 来 自 两 个 不 同 母 体 ; 反 
之 ， 如 果 两 个 均值 向 量 确实 存在 显著 性 差异 ， 则 可 肯定 它们 不 是 来 自 一 个 母体 。 用 TE 
量 来 检验 两 类 样本 所 包含 的 各 个 变量 的 判别 效果 就 基于 上 述 事 实 。 

















721772 














T? -— (x,— x5)'S ! (x, — x3) (7-36) 
nl 十 ns, 
式 中 ,xXx1 和 ;分别 为 两 类 样本 的 样本 均值 向 量 ; nl1、n;, 分 别 为 第 一 类 和 第 二 类 样本 的 
] 2 ni 
AN. C NS DEN NES 
个 数 ; S "EE 2:226 x2) (x4 — x) 
由 于 
ny Fg ni 





(ni Fna —2) 7 

遵从 自由 度 为 nx 和 (zi 十 2 一 2 一 1) WEF, ni 十 ns 一 n 一 1) 分布。 其 中 是 样本 向 量 所 
含 变量 数 ， 即 其 维 数 。 当 下 >F。 时 ， 则 表明 两 个 母体 的 均值 有 显著 性 差异 ， 亦 即 样本 的 
个 变量 可 以 区 分 这 两 个 母体 ， 对 它们 的 判别 效果 显著 。 
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2. Wilks 统计 量 











Wilks 统计 量 是 用 来 检验 多 类 样本 的 估计 均值 向 量 是 否 存 在 显著 性 差异 的 ， 所 以 它 可 用 





于 多 母体 之 间 的 判别 效果 。 即 检验 是 否 有 


xo? xo? xo T xo 


设 从 k PEE Gi Go i Gi 分 别 得 到 如 下 样本 ， 








Xx 5o y S. 
(2) 2) 0 (2) 
Xi X2 ，X3 ， X n, 
D Ck k k 
xi o am xU 


EP, ax? G=1, 2, =, 
维 向 量 ， 即 含有 m 个 变量 


nu, rts n; Vi. V2, nea Vko 令 


k 





k 
n= Xni; X,— [x(? x? xr V] a51, 2, e, k 
i-l 


X= [XiXi Xi] 
则 总 体 的 估计 均值 及 每 类 的 估计 均值 记分 别 为 


k Na 
x- (1/0) X) Dx; 


a—li-l 
xc —(1/n,) 91x;  (a—1,2,-,À) 
i=l 


同时 令 佑 计 总 方差 阵 为 W， 即 





k Ha 
W= 0/1) 33 Sl (x, —x)(x, 9 —x) ^X, — 0/2)JOX 


a—li-l 





RP, In 为 n KAMERE, J Dun 阶 纯 1 和 矩阵 。 将 其 进行 平方 和 分 解 ， 可 得 


Na 


k 
W — MN arar) 
a—li-l 





k na k 
= 5 2 xe — x 9? )(x (9 — x(0)t 十 Yn EW — x)(x(? —y)' 
a—li-l 


a—l 





即 上 式 中 的 第 一 项 为 类 内 方差 ， 记 为 EE， 而 第 二 项 表示 类 间 方 差 ， 记 为 B， 则 
W=E+B 
而 在 多 元 方差 分 析 中 著名 的 Wilks 统计 量 可 定义 为 
A-—|E|/|E-cB|-—|EI/IWI 
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b; nj) nas. ce. n) 表示 第 ;类 第 ) 个 样本 ， 它 们 都 是 7 
的 向 量 ,， 各 个 母体 的 相应 均值 向 量 和 协 方差 阵 分 别 为 4， 


(7-37) 


(7-38) 


(7-39) 


式 中 ，|，。| 表 示 行 列 式 值 。 其 自由 度 参 数 分 别 为 m,n 一 &,，k 一 1， 服 从 Wilks 分 布 ， 
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WHAM, n—k, k—1). 

3. 附加 信息 检验 

所 谓 附 加 信息 检验 就 是 对 另 增 加 的 一 些 变量 进行 检验 ， 检 验 它 们 是 否 能 提供 新 的 信息 ， 
亦 称 附 加 信息 。 设 从 & DERG o» Go.» c. Gs 分 别 得 到 如 下 样本 ， 


X X7 X3 X n 
(2 (2 (2) (2 
x ux ,xS D , A 
(k (k (k (k 
Xl. x api aes ed 


其 中 ， yate. Z.shaj ny ng ny ORIS i KRR NER, CNREE m 维 向 量 ， 
BAD m 个 变量 的 向 量 ， 如 通过 某 个 步骤 已 选中 了 个 变量 ， 要 检验 另外 (m 一 r) 个 指标 
对 区 分 母体 是 否 提 贷 附加 信息 ， 为 了 书写 方便 ， 不妨 设 选中 的 变量 是 前 x 个 变量 ， 记 























En Ex Bı B: 
E= B= 
E; Ez B» Bz 


为 了 检验 后 mr) 个 变量 是 否 提供 附加 信息 ， 不 能 简单 检验 


TD =F =P 一 … 一 元 9) 














因为 这 么 做 是 将 前 7 个 变量 与 后 (m 一 r) 个 变量 完全 孤立 起 来 ， 而 没有 考虑 到 它们 之 间 的 
相互 作用 ， 比 较 合 理 的 做 法 是 从 后 On —r) 个 变量 中 将 前 7 个 变量 与 它们 的 线性 相关 部 分 
扣除 ， 继 而 检验 剩 下 部 分 的 均值 是 否 相 等 ， 也 就 是 说 在 给 定 前 ~ 个 变量 的 条 件 下 ， 来 检验 后 
Gn—r) 个 变量 的 条 件 均 值 是 否 相 等 。 

iu x$72, A TE XE B r 个 变量 的 条 件 下 后 (mm 一 r) 个 变量 的 条 件 均 值 ， 则 要 检验 的 假设 









































是 
x3 —xPnoxpace "ab 
根据 第 十 章 关于 条 件 协 占 差 阵 的 公式 ， 上 述 检验 可 通过 下 述 统计 量 来 进行 上 ， 
Am- = | Ez —EnEn Ei | / | Ws —WnWi Wi | 
又 因为 


E= | En | Ez—EznEn El 
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W= | Wu || W22 —W21W11 Wis | 
故 
Aco— | EI / IW| — (|En |/ IWu |) CI Ez —En Ej Er | / | Wzz -WaWiy Wig |) 
id 
Ac—l|Eun | /IWaul 
已 是 检验 前 -~ 个 变量 构成 的 样本 的 均值 向 量 是 否 有 显著 性 差异 的 Wilks 统计 量 ， 即 检验 假设 






































x xi" xr" — xi 
的 统计 量 ， 所 以 有 
A Gn? =A mA m-re o) (7-41) 
X (7-41) 很 像 条 件 概率 的 公式 ， 由 于 Wilks 统计 量 有 这 个 好 的 性 质 ， 在 逐步 判别 中 使 用 它 
将 是 非常 方便 的 。 
另外 ，Wilks 统计 量 A 还 有 如 下 的 递 推 公式 : 
A (n) =A . 143 . 12t Am 二 下 (7-42) 


WWES (ej), W— (wj )， 则 式 (7-42). 还 可 写成 
A (m) = (e 1/w) (e22 1/22 .1) "ES CC 53,2, 021.4 Uam liD (7-43) 


这 在 逐步 判别 中 使 用 起 来 更 为 方便 。 

【基本 思路 】 

逐步 判别 法 的 基本 思路 与 逐步 回归 基本 是 相同 的 ， 每 一 步 选 一 个 判别 能 力 显 车 的 特征 变 
量 进 入 判别 函数 ， 然 后 ， 对 已 选 出 的 特征 变量 逐个 进行 检验 ， 检 验 它 们 是 否 对 正确 判别 有 显 
著 性 意义 ， 如 其 中 有 某 个 变量 由 于 新 变量 的 引入 而 变 得 不 重要 ， 即 对 正确 判别 无 显著 性 意 
义 ， 则 将 其 噜 除 ， 直 到 判别 函数 中 包含 的 所 有 变量 的 判别 能 力 都 显著 时 为 止 。 
本 节 下 面 将 讨论 的 逐步 判别 法 ,文献 [4] 对 其 作出 了 详细 介绍 并 附 有 程序 。 
【基本 算法 】 
逐步 判别 分 析 的 算法 将 由 下 述 步骤 组 成 。 
CD 设 在 样本 x (9? GG 一 1,2,… ,ns ;a 一 1,2,…,k) 中 含有 m 个 变量 ， 先 从 中 选 出 一 个 变 
计算 它 的 Wilks 统计 量 


Aq«g)—eg/wig — G—l, 2, t, m) 


使 之 为 此 m 个 变量 中 的 最 小 变量 。 为 叙述 方便 又 不 失 一 般 性 ， 设 所 挑选 的 变量 是 按 应 选 的 
次 序 来 进行 的 ， 即 第 * 步 正 好 选中 变量 r+。 第 一 步 选中 变量 1， 则 


























gh 














Aa) = min Aa) = (ej; /vw;;) (1—1,2,.-:.m) 
xix 


]zi-m 





考察 4) 是 否 落 和 接受 域 ， 即 该 变量 是 否 对 判别 有 显著 意义 ， 如 不 显著 ， 则 表明 一 个 变量 
也 选 不 中 ,不 能 用 判别 分 析 来 区 分 它们 :如 显著 ， 则 进入 下 一 步 。 
(2) 在 未 选中 的 变量 中 ， 计 算 它 们 与 已 选中 的 变量 1 配合 的 A fü 


| 














€i] €12 UV Ug 


Aa (2xZi m) 














€i] €; Wil Wiz 
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选择 Aao 达到 极 小 的 作为 第 二 个 变量 ， 注 意 到 因 4Ada Aq Ac E Aao 58V NAE ffr 
于 使 人 4; . 达到 极 小 。 

















仿 此 ， 如 已 选 和 了 > 个 变量 ,不 妨 设 为 前 7 个 变量 ， 则 在 未 选中 的 变量 中 逐次 选 一 个 与 
它们 配合 ， 计 算 
€ 7" ‘Cir £u WI ct Wir Wy 
e2,  ""' e2 eu w2 * Uo, Wy 
Aaz- = | f : : ! : : (rzlzm) 
ea c e, en Qo c Wyp Wy 
en UU Clr ĉn Uu Ut Wir Wwy 














选择 Aare 达到 极 小 的 作为 第 > 十 1 个 变量 ,由 于 Aare SAazer Ar azes BE 
Aaz- 达到 极 小 等 价 于 使 A, .da2… 达到 极 小 。 在 此 基础 上 ， 继 续 检 验 新 选 的 第 ~ 十 1 个 变 
量 能 否 提供 附加 信息 ， 如 不 能 则 转 入 (4)， 否 则 转 入 (3), 

(3) 在 已 选 入 的 7 个 变量 中 ， 要 考虑 较 早 选中 的 变量 其 重要 性 有 没有 较 大 的 变化 ， 应 及 
时 把 不 能 提供 附加 信息 的 变量 剔除 。 剔 除 的 原则 同 于 引进 的 原则 ， 如 在 已 选 入 的 > 个 变量 中 
考察 变量 j (1 二 j 三 7) 是 否 需 要 另 除 ， 就 是 要 计算 Ai .4a2,;-1,;+1…)， 选 择 达 到 极 小 的 2， 并 
检验 是 否 显著 ， 如 不 显著 则 将 该 变量 剔除 ， 仍 进行 (3)， 继 续 考 察 余 下 的 变量 是 否 需 要 唱 
除 ， 如 显著 则 回 到 (25, 

(4) 这 时 既 不 能 选 进 新 变量 ， 又 不 能 剔除 已 选 进 的 变量 ， 将 已 选中 的 变量 寻 
数 ， 前 述 的 Fisher 或 Bayes 判别 函数 都 可 以 。 

从 上 述 算法 可 以 看 出 ， 因 为 每 步 都 要 计算 一 些 行 列 式 ， 似 有 必要 建立 一 套 既 经 济 又 方便 
的 计算 方法 ， 下 面 将 介绍 一 种 在 逐步 回归 中 常用 的 消去 变换 法 。 

niu EO 为 没 被 变换 的 类 内 方差 矩阵 ， 对 它 进 行 一 次 消去 变换 后 的 符 阵 记 作 五 = 
(e 史 )， 再 作 一 次 消去 变换 后 的 矩阵 记 作 EO 一 (Ce 入 ),，…， 对 类 间 方 差 矩 阵 也 有 类 似 的 记 
号 。 男 外 ， 如 记 第 7 十 1 次 的 消去 变换 为 Tn ( 即 进 行 以 处 于 第 行 第 & 列 的 元 素 为 变换 中 
心 元 素 的 消去 变换 ， 要 求 ej ， 双 以 不 为 零 ， 对 于 所 讨论 的 类 内 方差 矩阵 和 类 间 方 差 和 矩阵， 
因 它 们 均 为 正定 矩阵， 此 条 件 自然 满足 )， 则 有 
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3z FI HI] PKI 


















































ei le j*k 
j i ep lei ixk 
Tj, CE) —ECTP —(Cet 1) ) 一 Pisos 
l/ejj i—j—k 


eP — epe Je Zk, jAk 


wh? Jw ish 
C) (r) s: 
wy /we iz 
Tup WC? —WweotDL-(wgiUy- k i (7-44b) 
l/wt i 二 j 二 


Cr ( Cr £ . : 
wi —wip wu /wi izhk.jzk 


iR 


上 述 消去 变换 法 具有 以 下 三 条 十 分 有 用 的 性 质 ， 而 使 之 在 逐步 回归 或 逐步 判别 分 析 中 使 
用 起 来 特别 方便 。 

OD Ti (Ti (X)) =X 。 即 对 X 连续 施行 两 次 相同 的 消去 变换 ， 其 结果 是 X 不 变 ， 这 很 
容易 直接 验证 。 
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O Xpizék. jl. WTGODu4 OX) 二 Tu (Ti (X)) 。 这 表明 消去 变换 在 某 种 意义 下 的 
可 交换 性 。 此 性 质 也 很 容易 直接 验证 。 

C 消去 变换 过 程 中 的 子 逆 阵 和 子 行列 式 计算 性 质 ， 如 记 E, 为 > 阶 正定 和 矩阵， 因为 
EO Ta GO»), EO =T BO), E? =T (E0) , WE, 的 行列 式 值 为 


E. I= Teg 
j=1 


E, —EO 




















表 7-1 给 出 了 更 清楚 的 结果 。 


消去 变换 过 程 中 的 子 逆 阵 和 子 行列 式 计算 结果 
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步 数 逆 和 矩阵 行列 式 值 所 含 变量 
l ein eil 1 
eip ei? 
2 2 (D (D 
esi € 32 €11€22 1,2 
etf e 
L : (1) i13 
(1) a) eueo tei 1.2, 
en ‘veu 
e( FD e De UHD 
: enep eff Pet 
r=1+1 eff D ellt detD B 
eG Dese Do eD 1.2.3, 
同时 ， 在 上 述 讨论 的 消去 变换 过 程 中 的 子 逆 阵 和 子 行列 式 计 算 性 质 ， 可 得 出 下 述 结果 : 





E EN) ES E 
Aao Sen /wi -—egj/w; i=l, 2, e, m 
(D, 0D i 
人 GD .1 一 eii /wi 1 二 2， t, m 


t2) (2) ba 
Aa .12 =—=ei /wi 1—3, **, m 





从 上 述 讨论 的 消去 变换 的 三 个 性 质 可 以 看 出 ， 如 在 逐步 判别 中 采用 消去 变换 ， 将 使 前 
讨论 的 有 关 逐 步 判 别 的 算法 变 得 既 简 单 又 方便 ， 这 是 因为 消去 变换 对 加 入 变量 和 剔除 变量 
同样 适用 的 。 并 且 因 为 T;; CT; X0) —X ， 如 果 一 个 变量 引进 作 了 消去 变换 ， 随 后 又 将 
除 时 还 可 作 同 样 的 消去 变换 ， 即 对 X 连续 施行 两 次 相同 的 消去 变换 ， 和 抢 阵 又 回 到 该 变 和 
加 入 前 的 情况 。 再 由 性 质 Ti (Tj; CX) — Tj (Ti X0) G Aj) 可 知 ， 如 果 选 进 了 > 个 变量 ， 
则 EW 与 这 些 变 量 选 进 的 先后 次 序 是 无 关 的 。 男 外 ， 因 为 如 果 经 了 次 消去 变换 后 ， 最 后 选 
中 了 7 个 变量 , 不 失 一 般 性 仍 假定 是 前 7 个 变量 ， 通 过 消去 变换 还 可 以 计算 出 逆 抢 阵 ， 即 
E, =E” ， 所 以 可 以 用 它 来 计算 Fisher 或 Bayes 判别 函数 来 。 

另外 ， 以 Wilks 统计 量 A 的 值 作 为 目标 函数 ， 用 上 述 逐步 选 变量 的 方法 求 得 Wilks 统 
计量 A 的 值 的 极 小 不 是 全 局 最 小 ， 只 是 一 种 局 部 最 优 解 ， 对 变量 选择 的 全 局 最 优 解 的 求法 
也 只 能 用 我 们 在 第 四 章 讨论 的 模拟 退火 法 、 遗 传 算法 或 基于 数论 方法 的 序 贯 优化 法 来 求 得 ， 
当然 ， 代 价 就 是 计算 更 复杂 、 计 算 时 间 更 长 。 
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以 上 讨论 的 几 种 方法 都 是 经 典 的 参数 方法 ， 下 面 还 将 介绍 几 种 非 参数 方法 ， 如 线性 学 习 
机 、K- 最 近邻 法 、 势 函数 判别 法 、 人 工 神经 网 络 判 别 法 。 


五 、 线 性 学 习 机 


【基本 思路 】 
线性 学 习 机 又 称 线 性 判别 冰 数 法 。 设 在 训练 集中 有 两 类 样本 ， 记 为 w: 和 w?， 线 性 判别 
函数 法 的 目标 是 找到 一 个 矢量 w， 如 果 它 们 是 线性 可 分 的 ， 则 总 可 找到 一 个 矢量 w， 使 得 











Xi €w, wt'x, >0 


x,€o?, wtx, <0 





试 考察 一 个 二 维 模式 空间 线性 可 分 的 例子 〈 见 图 7- ^, c! 和 w? 可 借 判 决 面 分 开 ， 在 
本 例 中 ， ads 条 直线 ， 这 条 直线 是 通过 原点 的 ， 这 一 点 总 是 可 通过 坐标 旋转 与 平移 达 
到 。 判 决 面 可 借 与 之 正 交 并 通 过 原点 的 权 矢 量 w 来 表述 。 232800705 S 

















s=wtx, = || w lll x, || cosa) (7-45) 

















式 中 ， a 是 二 二 矢量 间 的 夹 角 。 显然 ， 如 s 是 正 值 ， X, B w! 类 ， 如 s 是 负 值 ， X, 属 w? 
类 ， 所 以 判决 面 是 一 个 “分 类 器 ”。 











EE ”线性 分 类 器 示意 图 


从 这 个 简单 的 例子 出 发 ， 可 探求 如 何 求 出 判决 面 ， 即 找到 一 个 线性 分 类 器 。 求 判决 面 的 
过 程 ， 是 借助 已 知 的 wl 类 和 o? 类 样本 进行 的 ， 这 一 过 程 就 称 为 训练 过 程 ， 这 些 已 知 样本 
称 为 训练 集 。 设 一 组 已 知 分 类 的 样本 集 ， 可 将 其 随机 分 为 两 部 分 ， 一 部 分 作 训练 集 (或 称 学 
习 集 、 参 比 集 ) 用 于 计算 判决 面 ， 另 一 部 分 作 预 测 集 〈 或 称 检 验 集 ) 用 于 考察 找 出 的 判决 面 
能 否 用 来 正确 地 预测 训练 集 以 外 的 样本 。 

【基本 算法 】 

线性 学 习 机 是 一 种 有 监督 的 学 习 类 型 的 简单 线性 判别 函数 的 迭代 算法 ， 可 通过 以 下 步骤 
来 实现 。 

d) 随机 选取 一 个 与 样本 矢量 具有 相同 维 数 的 矢量 作为 w。 

(2) 对 每 个 样本 都 进行 计算 (R 一 1,…，7): 

如 果 x, Ew, MH wx, >0, Hj wnew 一 wd (判决 矢量 保持 不 变 ); 

反之 ， 如 果 w'x,-0. M was =W màx, (修正 判决 矢量 ); 

如 果 x,€o?. 而且 wx, <0, Ww, 二 woq (判决 矢量 保持 不 变 ); 

反之 ， 如 果 w'x,20,. WU wu 二 wo 一 Xx (修正 判决 矢量 ); 

XE A —2Otiax2/ ll x, ||? 

(3) 重复 第 二 步 ， 直 至 所 有 的 样本 都 正确 分 类 。 
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以 上 算法 是 对 于 线性 可 分 的 情况 而 设计 的 ， 对 于 线性 不 可 分 的 情况 ， 则 规定 重复 次 数 ， 
到 了 规定 次 数 还 不 能 完全 将 训练 集 分 开 ， 则 认为 属于 线性 不 可 分 的 。 

另外 ， 本 算法 中 的 修正 判决 矢量 的 计算 ， 实 际 上 是 将 当前 的 不 能 正确 分 类 的 判决 矢量 进 
行 反 射 ， 这 是 因为 











Whew Xk = (Woa ÀX) X} 
=w ax, —2(w5ax) Gix4/ lx, |? 


= — Wia Xk 
也 就 是 说 ， 经 过 这 样 的 修正 以 后 ， 原 来 不 能 正确 分 类 的 现在 可 以 分 类 正确 了 。 一 般 说 来 这 样 
的 重复 次 数 在 二 十 次 左右 就 足够 了 。 











【基本 思想 】 
K- 最 近邻 法 COK-NN 法 ) 是 一 种 直接 以 模式 识别 的 基本 假设 同类 样本 在 模式 空间 





相互 较 靠 近 一 一 为 依据 的 分 类 方法 。 图 7-5 示 出 了 K- 最 近邻 法 的 主要 思路 ， 从 图 可 以 清楚 
看 到 ， 该 法 就 是 计算 在 最 近邻 域 中 & 个 已 知 样本 到 未 知 的 待 判别 样本 的 距离 ， 即 使 所 研究 的 
体系 线性 不 可 分 ， 此 法 仍 可 适用 。K- 最 近邻 法 从 算法 上 讲 极为 直观 ， 这 种 方法 ,实际 上 是 
要 将 训练 集 的 全 体 样本 数据 存储 在 计算 机 内 ， 对 每 一 个 待 判别 的 未 知 样本 ， 逐 一 计算 与 各 训 
练 集 样本 之 间 的 距离 ， 找 出 其 中 最 近 的 K 个 进行 判别 。 



































X 








EPAD K- 最 近邻 法 主要 思路 的 示意 图 
+ 表示 待 分 类 样本 ; oc，o，。 表 示 属 于 不 同类 别 的 样本 














如 二 1， 很 自然 这 一 个 最 近邻 样本 属于 哪 一 类 ， 未 知 样 本 即 判 属 该 类 。 如 KK >1， 则 这 
K 个 最 近邻 样本 不 一 定 都 属于 一 类 。 采 用 “表决 ”的 办 法 ， 对 这 K 个 最 近邻 样本 的 归属 情 
况 ， 按 少数 服从 多 数 进 行 判 决 。 一 个 近邻 相当 于 一 票 ， 但 应 考虑 对 各 票 进 行 加 权 ， 对 距离 最 
近 的 近邻 的 类 属 ， 应 予以 较 重 的 权 。 例 如 按 式 (07-46) 计算 : 








Va — 3Vi/Di (7-46) 

















Xm. 如 果 x;Col, 则 取 V;-—1; 如 果 x; Ew?， WE V;-—-—1; Di 是 待 判别 的 样本 与 
近邻 的 距离 。 这 样 ， 如 果 求 得 的 V 未 知 为 正 ， 则 可 认为 x; 属于 w!， 反之, x; 属于 w?， 即 ， 


MÉVaa0, M xaaC€o 
SEV. M x 未知 Ew? 


D; 的 作用 相当 于 一 个 权 因 子 ， 即 如 果 近 邻 7 与 样本 x; 的 距离 很 小 时 ， 它 权 值 就 大 ， 而 
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那些 距离 大 的 近邻 权 值 较 小 。 

【基本 算法 】 

K- 最 近邻 法 (K-NN 法 ) 算法 相当 简单 ， 可 由 以 下 步骤 来 完成 。 

CD 取 一 个 未 知 样本 ， 记 为 x 未 和 n， 计 算 该 样本 到 训练 集 各 样本 的 距离 D; (一 1,2,…， 
n) ,在 此 ?7 为 所 有 训练 集 样本 的 总 数 。 

(2) 取出 & 个 距离 最 短 的 训练 集 样 本 ， 计 算 它 们 的 权 值 和 : 


Va —2Vi;/D; (i=1,2,*…,k) 
WÈ x; € o! UC V; —1; WIR x; Ew? V= 1; D; 是 待 判别 的 样本 与 近邻 的 距离 。 
(3) 建立 判别 标准 ， 即 当 
V 未 知之 0， 则 x 未 知 判 为 第 一 类 w!; 
BC V jog 0 SU] x 未 知 判 为 第 二 类 o? 。 


对 于 此 法 中 值 取 多 少 ， 文 献 中 多 有 讨论 号 ， 但 很 难 有 一 定论 ， 一 般 还 是 靠 经 验 来 定 。 
此 外 ， 有 人 还 提出 了 一 种 交替 K-NN (alternative K-NN) 方法 ， 有 兴趣 的 读者 可 参阅 文献 
[6~8j。 

七 、 势 函数 判别 法 

【基本 思想 】 

势 函数 分 类 法 实际 上 是 K- 最 近邻 法 COK-NN 法 ) 的 一 种 很 有 效 的 拓 广 变种 。 它 把 每 一 
个 已 知 种 类 样本 的 代表 点 都 看 成 某 种 “ 势 场 ” 的 源 ， 例 如 一 个 电场 源 即 一 个 点 电荷 。 在 距 某 
点 距离 为 D 处 的 场 强 V(D) 可 用 下 列 一 类 公式 表示 : 
























































V(D)=1/D (7-47) 
V(D) 也 可 采用 更 复杂 的 形式 ， 如 
VOD) —1/0 +qD?) (7-482) 
或 
VCD) 一 e Pn (7-48b) 


AF, q 为 可 调 参 数 。 
所 有 点 的 场 均 分 布 于 整个 空间 且 互 相 重奏 。 对 于 未 知 点 属于 哪 一 类 的 判断 基于 这 样 一 个 
原则 : 未 知 点 属于 在 该 点 有 最 大 势 场 强度 的 那 一 类 ， 即 用 下 列 判 据 : 








Vi = /ni) $3VG D — a/n) 33V G2 (7-49) 


式 中 , V Gc 0 RI V Gc jz) 分 别 代表 第 一 类 点 和 第 二 类 点 对 未 知 样本 点 处 施加 的 势 场 ; 
nn1、742 分 别 为 第 一 、 第 二 类 点 数目 ; V 样 本 为 未 知 点 处 两 类 点 平均 作用 势 的 差 值 。 当 VV 样本 二 

















0, W x a € o; Tij Vx —0, Wl] x ga; € v? 。 V 样 本 三 0 时 为 分 界面 ， 一 般 为 复杂 的 不 连 
续 的 曲面 。 图 7-6 表示 出 了 这 类 分 界面 的 示意 图 。 
【基本 算法 】 


势 函 数 分 类 法 算法 也 很 简单 ， 可 由 以 下 步 又 来 完成 。 
(1) 取 一 个 未 知 样本 ， 记 为 x 未 和 n， 计 算 该 样本 在 已 知 训练 集 场 中 的 场 强 V 示 和 nCD)， 即 
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EE 势 汕 数 分 类 法 示意 图 


Va (D)—XI/Gcqg;D?) (=1,2,.…,n) (7-50) 


RP, n 为 所 有 训练 集 样本 的 总 数 ，D? 为 该 样本 到 训练 集 各 样本 的 距离 ，9 为 预 置 党 
数 ， 当 训练 集 样本 i 属于 第 一 类 时 取 正 值 ， 而 当 训 练 集 样本 i 属于 第 二 类 时 取 负 值 。 

(2) 建立 判别 标准 ， 即 当 

Vm D)>0, M x 未 知 判 为 第 一 类 o! ; 

反之 ，V 未 知 (CD)<0， 则 x 未 知 判 为 第 二 类 w., 

势 函 数 法 的 一 个 较 简 单 的 变种 是 只 考虑 一 批 近邻 的 势 的 方法 ， 例 如 ， 可 只 考虑 K 个 近 
邻 ， 取 判别 函数 为 : 























Va (OD) = /G-cq;DI) GG=1,2,.,k) (7-51) 





这 就 与 K- 最 近邻 法 相似 了 。 
八 、 人 工 神 经 网 络 判 别 法 


【基本 思想 】 

人 工 神经 网 络 方法 在 前 一 章 的 非 线性 校正 方法 已 作出 了 一 般 性 的 介绍 ， 在 此 只 对 其 在 化 
学 模式 识别 中 的 应 用 给 出 必要 的 补充 介绍 。 人 工 神经 网 络 由 于 其 具有 非 线性 映照 的 能 力 ， 用 
于 化 学 模式 识别 应 该 说 是 有 一 定 优 势 的 ， 近 年 来 在 化 学 模式 识别 中 得 到 了 相当 广泛 的 应 
用 ~， 本 节 仍 以 多 层 前 传 网 络 误差 反 传 算法 为 主 来 作出 介绍 。 

人 工 神 经 网 络 用 于 化 学 模式 识别 的 基本 思路 与 前 述 的 判别 分 析 方 法 是 相同 的 ， 它 也 是 通 
过 对 已 知 类 别 的 训练 集 的 拟 合 ， 来 建立 模型 来 进行 分 类 与 预测 的 。 它 与 第 五 章 中 讨论 的 非 线 
性 校正 方法 的 区 别 仅 在 于 校正 方法 的 拟 合 为 连续 变化 函数 ， 而 化 学 模式 识别 则 是 以 0，1 
或 一 1、 十 1 为 输出 来 进行 拟 合 建 模 的 。 

【基本 算法 】 
用 于 化 学 模式 识别 的 误差 反 传 算法 算法 将 由 以 下 几 步 构成 。 

(1) 随机 选取 网 络 之 间 的 连接 权重 ww 如 和 wj 二 1 nn;i 二 l,m;k 二 1,…,L)， 
HE n 为 输入 矢量 的 节点 数 (或 称 输入 矢量 的 维 数 ); m 为 隐 节 点 数 ; 工 为 输出 节点 数 。 一 






































| 59 | 分 析 化 学 手册 0 化 学 计量 学 


般 就 用 〈 一 0.5 一 0.5) 的 均匀 分 布 的 随机 函数 产生 。 
(2) ital. Mise | A, 重复 迭代 进行 以 下 步骤 ， 直至 收敛 ， 
(D 前 传 计 算 : 按照 下 面 两 式 来 计算 0， 
Or =f (wr y? tw) 
=f Ow Lf Ew IInp; twp i] Hwg) (7-52) 


式 中 ，y = f(X w Ip; +wp), 活性 函数 或 取 符号 函数 ， 即 fGO = sgnGO = 
fahu) ， 或 取 非 线性 反正 弦 函 数 f (u) —tanh GO 。 与 所 期 望 得 到 的 数值 比较 ， 按 式 (7-53 
WA KRAKA E, 














E—1/2L 30, —E4)?] (7-53) 

© 反 传 调节 : 计算 出 由 上 式 表 出 的 目标 函数 对 连接 权重 的 一 阶 导 数 ， 并 以 此 来 调节 连 

接 权 重 wi Mw 《〈 因 在 此 只 介绍 最 陡 梯 度 法 ， 所 以 用 的 是 一 阶 导数 ， 别 的 优化 算法 同样 
是 可 行 的 ) 。 














AU; — piu; (7-54) 

式 中 ，p 为 一 步 长 因子 ， 可 在 O~ 之 间 取 值 ; u 为 第 j 节点 上 的 抽象 变量 ， 一 般 视 

其 是 在 输出 层 还 是 隐藏 层 ， 就 分 别 等 于 S O w np; tw) RE SO wey” 十 wy?); 6 
为 梯度 因子 ， 对 于 不 同 层 ， 它 有 不 同 表达 式 : 














(u; TE) u:i) Au) WR u; 为 输出 节点 (7-55a) 
O (Èw u Au) WMR u 为 隐蔽 层 节点 (7-55b) 


TEX H u(l—u)—u', XA 
u— f Ew? Inp; Hw) 9 f (3) 51/(-e77) (7-56) 
Br EUG 
u'= f") —[1/0-e71)]/dz 2 —(Q-e71)7?(e7*)(—1) 
—[1/Q-e77)](—[1/ü-e72)]) 24 (174) 


式 〈7-54) 中 步 长 因子 o 的 取 值 大 小 对 收敛 速度 有 很 大 的 影响 ， 如 果 取 值 太 大 ， 则 可 能 
引起 迭代 过 程 的 振荡 ; 反之， 知 取 值 太 小 则 会 导致 权重 调节 的 迭代 过 程 收 勾 太 慢 。 一 般 说 
来 为 了 加 快 迭 代 过 程 且 防止 迭代 过 程 的 振荡 ,一般 是 在 式 中 引入 一 个 惯量 因子 X， 

Aw; (a + 1) =ou; HAAw;; Ca) (7-57) 








以 保证 迭代 收敛 速度 。 

尽管 人 工 神 经 网 络 的 研究 已 取得 令 人 兴奋 的 进展 ， 但 是 ， 总 的 说 来 对 它 的 研究 无 论 在 理 
论 还 是 应 用 上 都 还 处 于 初期 阶段 ， 存 在 很 多 问题 值得 探讨 ， 如 网 络 训练 速度 、 过 拟 合 、 全 局 
寻 优 、 网 络 结构 与 网 络 能 力 等 问题 都 存在 未 知 因素 ， 值 得 进一步 研究 。 有 兴趣 的 读者 可 参阅 
文献 [12 一 15]。 深 度 学 习 算 法 是 对 人 工 神经 网 络 的 发 展 ， 在 近期 赢得 了 很 多 关注 ， 特 别 是 
百度 也 开始 发 力 深度 学 习 后 ， 更 是 在 国内 引起 了 很 多 关注 。 在 计算 能 力 变 得 日 益 廉 价 的 今 
天 ， 深 度 学 习 试 图 建立 大 得 多 也 复杂 得 多 的 神经 网 络 。 很 多 深度 学 习 的 算法 是 半 监 督 式 学 习 
算法 ， 用 来 处 理 存 在 少量 未 标识 数据 的 大 数据 集 。 常 见 的 深度 学 习 算 法 包括 : 受 限 玻 尔 效 曼 
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机 (restricted boltzmann machine. RBN), Deep Belief Networks (DBNO, 42$ fH W 2& 
(convolutional network)、 堆 栈 式 自动 编码 器 (stacked auto-encoders), 


第 五 节 无 监督 的 模式 识别 方法 一 一 聚 类 分 析 法 


聚 类 分 析 是 多 元 统计 中 的 一 种 实用 性 很 强 的 方法 ， 其 主要 思路 就 是 利用 同类 样本 应 彼此 
相似 ， 即 常 说 的 “ 物 以 类 聚 ”， 相 类 似 的 样本 在 多 维 空间 中 彼此 的 距离 应 小 些 ， 而 相似 的 样 
本 在 多 维 空间 中 彼此 的 距离 应 大 些 。 至 类 分 析 即 为 如 何 使 相似 的 样本 “ 聚 ” 在 一 起 ， 从 而 达 
到 分 类 的 目的 。 一 般 说 来 ， 聚 类 分 析 方 法 可 分 为 凝聚 法 与 分 离 法 两 类 -5 ， 凝 聚 法 开始 时 将 
每 个 样本 认 作 一 个 类 ， 然 后 由 这 些 类 逐步 凝聚 成 较 大 的 类 ， 下 面 将 讨论 的 系统 聚 类 法 就 是 凝 
聚 法 的 例子 ;而 分 割 法 则 与 之 相反 ， 开 始 时 将 所 有 的 样本 认 作 一 个 大 类 ， 再 逐步 分 割 为 较 小 
的 类 ， 以 后 将 介绍 的 一 分 为 二 法 是 分 割 法 的 一 个 例子 。 


一 、 系 统 聚 类 法 


【基本 思想 】 

系统 聚 类 法 亦 称 谱系 聚 类 法 ， 是 一 种 很 常用 的 凝聚 法 方法 ， 其 基本 思想 是 : Jed T 
样本 各 自 看 成 一 类 ， 然 后 规定 样本 之 间 的 距离 和 类 与 类 之 间 的 距离 。 开 始 ， 因 每 个 样本 自 成 
一 类 ， 类 与 类 之 间 的 距离 与 样本 之 间 的 距离 是 等 价 的 ， 选 择 距离 最 小 的 一 对 并 成 一 个 新 类 ， 
计算 新 类 与 其 他 类 的 距离 ， 再 将 距离 最 小 的 两 类 并 成 一 类 ， 这 样 每 次 减少 一 类 ， 直 至 所 有 的 
样本 都 成 为 一 类 为 止 。 

类 与 类 之 间 的 距离 有 许多 定义 的 方法 0 ， 它 与 前 述 样本 与 样本 之 间 的 距离 是 有 区 别 的 ， 
例如 定义 类 与 类 之 间 的 距离 为 两 类 之 间 样 本 中 的 最 近 的 距离 ， 或 者 定义 类 与 类 之 间 的 距离 为 
两 类 重心 之 间 的 距离 等 等 。 不 同 的 定义 就 产生 了 系统 聚 类 的 不 同方 法 ， 本 节 将 对 常用 的 8 种 
定义 类 与 类 之 间距 离 的 不 同方 法 进行 简要 介绍 。 为 区 别 样本 之 间 的 距离 和 类 与 类 之 间 的 距 
离 ， 在 以 后 的 讨论 中 ， 凡 是 用 小 写字 和 母 d 表示 的 为 样本 之 间 的 距离 ， 而 用 大 写字 和 母 D 表示 
的 为 类 与 类 之 间 的 距离 。 

1. 最 短 距离 法 

最 短 距离 法 定义 类 G; 与 Gj 之 间 的 距离 为 





































































































Dij-— min idu) (7-58) 


xi € Gi.xi€ Gi 


UP. du ÆA x, 5 x, 的 距离 ， 即 类 与 类 之 间 的 距离 为 两 类 之 间 最 近 的 样本 之 间 的 








距离 。 
【基本 算法 】 
定义 了 上 述 的 类 与 类 之 间 的 距离 ， 基 于 最 短 距 离 的 系统 聚 类 法 的 算法 可 由 下 述 计算 步 又 
组 成 。 

(1) 规定 样本 之 间 的 距离 〈 可 为 前 述 的 欧 氏 距离 或 其 他 距离 )， 计 算 样 本 两 两 距离 的 对 
称 阵 ， 记 为 Dwo，， 开 始 每 个 样本 自 成 一 类 ， 这 时 显然 Dpy =d yo 

(2) EA Do EDNER, KWH Dua., MÉ G, MG 合并 成 一 新 类 ， 记 为 C,， 则 
G;: 二 {Gp ,Gy)。 将 Doo)y 中 pkg 行 及 pg 列 并 成 一 个 新 行 新 列 , 新 行 新 列 对 应 G; ,所 得 的 算 
阵 记 作 Do. 

(3) 计算 新 类 与 其 他 类 的 距离 
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Dx= min {dj}=min{ min {dij}, min (dj;}=min(Dy ,Dy) 


xi€Grx; EG xi € Gp xj € Gy I x; € Gq.x;j € Gs 
OD 对 Do 重复 上 述 对 Do 的 计算 得 De ， 如 此 下 去 直到 所 有 的 元 素 成 为 一 类 为 止 。 
2. 最 长 距离 法 
最 长 距离 法 定义 类 C; 5G; 之 间 的 距离 为 


Dij — max (du) (7-59) 
xP € Gi xi € Gi 


式 中 ，d 是 样本 xx 5x, 的 距离 ， 即 类 与 类 之 间 的 距离 为 两 类 之 间 最 远 的 样本 之 间 的 距离 。 
最 长 距离 法 的 基本 算法 与 最 短 距 离 法 是 完全 类 似 的 ， 所以， 在 此 只 给 出 计算 新 类 与 其 他 
类 的 递 推 公式 : 








D, = max {d;}=max{ max (di). max {di}}=max(D pD) 
x; €G, x; EGE x; €Ga,x; € Gk x; €Gqix; € Gr 


(7-60) 

3. 中 间距 离 法 

从 上 述 对 最 短 距 离 法 和 最 长 距离 法 的 讨论 可 知 ， 它 们 的 差别 上 只 在 于 两 点 : 四 类 与 类 之 间 
距离 的 定义 不 同 ; @ 计 算 新 类 与 其 他 类 的 距离 所 用 的 递 推 公 式 不 同 。 下 面 将 介绍 的 其 他 系统 
聚 类 法 之 间 的 差异 也 都 在 这 两 方面 ， 故 下 述 讨论 将 主要 将 介绍 新 类 与 其 他 类 上 距离 的 递 推 


公式 








中 间距 离 法 定义 的 类 与 类 之 间 的 距离 既 不 采用 两 类 中 样本 之 间 的 最 短 距 离 ， 也 不 采用 两 
类 中 样本 之 间 的 最 长 距离 ， 而 是 采用 最 近 和 最 远 之 间 的 距离 。 

如 有 果 在 某 一 步 将 类 Gy 与 G4 合并 为 G,， 任 一 类 G; 与 G; 之 间距 离 的 取 法 可 由 如 下 三 角形 
说 明 (参见 图 7-7)。 如 果 用 最 短 距 离 法 ，D;, F Dip 和 Di 中 短 的 一 边 ; 如 果 用 最 长 距离 
法 ，D; 等 于 D;, 和 Di 中 长 的 一 边 。 而 在 中 间距 离 法 中 ，D; 既 不 取 DD;y 也 不 取 D;i,，Di, 取 
的 是 夹 在 中 间 的 三 角形 中 线 ， 由 初等 几何 知 


—ÉE RAE T [O/2)D2, - (0/2) D, — 


iq 


















































(1/4) D2,] 
故 可 取 
Di} =[(1/2)D$, + (1/2)Di, 805.1 (—1/4<p<0) (7-61) 
当 B 二 一 1/4 时 ，Di 就 是 上 述 的 三 角形 中 线 。 式 (7-61) 也 就 是 中 间距 离 法 的 递 推 公 式 。 
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4. 重心 法 

从 物理 的 观点 看 ， 一 个 类 用 它 的 重心 〈 该 类 样本 的 均值 向 量 ) 作 代表 比较 合理 ， 类 与 类 
之 间 的 距离 就 用 重心 之 间 的 距离 来 代表 。 设 G， 与 G4 的 重心 分 别 为 Xp Mxs G 与 G4 的 
距离 为 














D pq =d F F (7-62) 


对 应 于 这 种 定义 的 系统 聚 类 法 叫 重 心 法 。 
设 某 步 将 类 Gp 5G; 合并 为 G,， 它们 各 含有 Nps Nqs n,n, =np Fna) NIER, 则 
此 种 方法 的 递 推 公式 为 


万 —[Gis/n,)D2, - ns /n. 2D2, — Cn pna) / n?) Dh] (7-63) 











s. 类 平均 法 
重心 法 虽 有 很 好 的 代表 性 ， 但 未 充分 利用 各 样本 的 信息 ， 有 人 建议 将 两 类 之 间 的 距离 定 
义 为 这 两 类 元 素 所 有 样本 两 两 之 间 的 平均 平方 距离 ， 即 
We D d s, (7-64) 


NpNqg x; €Gp.xj € Gq d 

















RP., np Mn, 分 别 为 类 Gy 5G, 中 的 样本 数 。 容 易 导 出 [下 此 种 方法 的 递 推 公式 为 
D? —[G, /n,)D?, T ng/n,) Di,] (7-65) 


有 人 认为 类 平均 法 是 系统 聚 类 法 中 比较 好 的 方法 之 一 。 
6. 可 变 类 平均 法 
因 在 类 平均 法 的 递 推 公式 中 没有 反映 Dj 的 影响 ， 故 有 人 建议 将 递 推 公 式 (7-65) 改 为 








D?, —[(ns /n,) (1—5) D$, T- n/n;)(1—B DG, --BD$, ] (7-66) 
式 中 ，B 二 1， 对 应 于 这 个 递 推 公式 的 系统 聚 类 法 叫做 可 变 类 平均 法 。 
7. 可 变法 
如 将 上 述 讨论 的 递 推 公式 改 为 
D? =[a—8)/2] D}, +D) +802 (7-67) 


式 中 ，8<1， 那 么 ， 对 应 于 这 个 递 推 公 式 的 系统 聚 类 法 叫做 可 变法 。 

可 变 类 平均 法 和 可 变法 的 分 类 效果 与 B 的 选择 关系 极 大 ， 有 一 定 的 人 为 任意 性 ， 因 此 在 
实际 使 用 不 太 多 见 。 

8. 方差 平方 和 法 

这 个 方法 是 由 Ward 提出 ， 故 也 有 Ward 法 之 称 。 该 方法 的 主要 思想 是 来 源 于 方差 分 
析 ， 即 如 果 类 分 得 正确 ， 同 类 样本 的 方差 平方 和 应 当 较 小 ， 类 与 类 之 间 的 方差 平方 和 应 当 
较 大 。 

设 有 个 样本 拟 分 成 & 2IEGi Ga Ga» xí AIR Gi 中 的 第 i 个 样本 ， 每 个 样本 都 是 一 
Am EE, n; 表示 G; 中 的 样本 个 数 ，X 中 为 Gi(t 二 1,2,…,k) 的 重心 ， 亦 即 该 类 的 均值 
向 量 ， 则 G, 的 样本 方差 平方 和 为 

















n, 
S, — 9 xq — x (xs — x0) 
i=] 
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$ 
S=) T œu rOn D Te 
=l] i—1 
当 & 固定 时 ， 要 选择 使 S 达到 极 小 的 分 类 。n 个 样本 ,分 成 类, 一切 可 能 的 分 法 可 由 下 
式 给 出 ， 








" 
R GR) —Q/k! 291 De un (7-68) 
有 关 此 式 的 证 明 可 参阅 文献 [3j。 上 式 说 明 ， 此 类 优化 问题 为 组 合 优化 问题 ,求全 局 最 优 解 
bat 个 问题 ，Ward 法 给 出 的 是 一 个 局 部 最 优 解 。 其 基本 思路 为 ， 先 将 n 个 样本 各 
自 成 一 类 ， 此 时 S 最 小 ， 然 后 每 次 缩小 一 类 ， 因 每 缩小 一 类 后 总 方差 平方 和 S 就 要 增 大 ， 
选择 使 S 增加 最 小 的 两 类 进行 合并 ， 直 至 所 有 的 样本 归 为 一 类 为 止 。 
从 上 述 讨 论 中 看 出 ， 方 差 平方 和 法 与 前 面 介绍 的 7 种 系统 聚 类 法 有 较 大 的 差异 
以 证 明 ， 方差 平 方 和 法 的 类 距离 计算 的 递 推 公式 为 


2 =[ (n; +np)/ (n; +n, XJD5, HEC; +n4)/ (n; +n, )]D? 














tSc n] 


NI 








—[ (n;)/ (n; +n, )] 刀 2， 


iq 


(7-69) 


ER 8 种 系统 聚 类 法 ， 并 类 的 原则 和 步骤 是 完全 一 样 的 ， 所 不 同 的 是 类 与 类 之 间 的 距离 
有 不 同 的 定义 ， 从 而 得 到 不 同 的 递 推 计算 公式 。Wisharttls1 发现 它们 的 递 推 公式 可 以 统一 起 
来 ,它们 统一 的 形式 为 


2 一 2 
Di, =apDip ra,D FBD; 

















x PED -—DLI (7-70) 





方法 不 同 ， 式 中 的 ap、as、B 和 的 取 值 也 不 同 ， 表 7-2 列 出 了 上 述 8 种 系统 聚 类 法 4 个 参 
数 的 取 值 。 递 推 公式 的 统一 Dono Ue Ems 为 编制 计算 机 统一 程序 提供 












































了 极 大 的 方便 ， 文 献 L[19] 给 出 了 这 样 的 程序 。 
系统 聚 类 法 参数 表 
方 法 ap 04 B r 

最 短 距离 法 1/2 1/2 0 —(0/2) 
最 长 距离 法 1/2 1/2 0 1/2 
中 间距 离 法 1/2 1/2 — 0/2) 0 
重心 法 np/nr ng/nr Cnpna)/ (n?) 0 
类 平均 法 n,/n, n,/n, 0 0 
可 变 类 平均 法 (1—B)/2 (1—55/2 B 0 
可 变法 (1— n, /n. (—n,/n. B 0 
方差 平方 和 法 tnp)/ iHn) | tap /nitna) | —)/0 tn,) 0 
【示例 】 





现 以 一 个 最 简单 的 例子 来 说 明 上 述 系 统 聚 类 法 的 聚 类 过 程 。 表 7-3 给 出 了 一 个 薄 层 色谱 
的 5 个 溶剂 系统 (分别 记 为 A、B、C、D、E) 分 离 4 种 物质 Gig a. b. c. d) 的 保留 
时 间 AR (CR (2€ 1000 [EC , 
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5 个 TLC 体系 的 hR, 值 





e 溶剂 体系 A B cz 5 5 
a 100 80 80 40 50 
b 80 60 70 20 10 
c 70 50 40 20 20 
d 60 40 50 10 10 




















2 TLC 体系 分 类 ， 如 和 欲 找 出 A 一 E 诸 溶 剂 中 哪些 是 相似 的 ， 哪 些 是 不 相似 的 ， 这 
种 信息 对 选择 适宜 的 溶剂 tk ult 二 维 TLC 分 离 有 意义 。 首 先 将 A、B、C、D、 巨 各 认 作 
idis 由 表 7-3 可 计算 距离 阵 ， 在 此 采用 的 是 欧 氏 距离 ， 结 果 示 于 表 7-4。 
TLC 溶剂 体系 的 欧 氏 距离 


溶剂 体系 A B C D E 






































A 0 

B 40 0 

C 38.7 17.3 0 

D 110.4 70. 7 78.1 0 

E 111.4 72.1 80. 6 14.1 0 











如 采用 最 短 距 离 法 ， 这 五 类 之 间 的 最 小 距离 为 DE， 即 D 5 E 是 最 相似 的 溶剂 体系 。 
可 先 将 DE 合并 为 一 类 ， 记 为 D*， 表 7-5 列 出 了 DE 到 为 一 类 DD* 后 的 欧 氏 距离 ， 从 表 可 
以 看 出 ， 当 前 类 与 类 间 最 小 的 距离 为 BC， 将 它们 再 聚 为 一 类 ， 并 记 为 B*， 其 欧 氏 距离 表 
示 于 表 7-6， 最 后 将 A 与 B* 合并 为 一 类 A* ， 其 类 间距 离 表 示 于 表 7-7。 


最 短 距离 法 DE 聚 为 一 类 D’ 后 的 欧 氏 距离 











溶剂 体系 A B C D* 溶剂 体系 A B C D* 











EFAJ SEERA DE, BC 聚 类 后 GERD 最 短 距 离 法 A 与 B“ 聚 类 后 的 
的 欧 氏 距离 欧 氏 距离 
wes A B’ D’ 溶剂 体系 a’ D: 
A 0 A^ " 


























上 述 结果 可 绘 成 谱系 图 ( 见 图 7-8)， 由 谱系 图 可 得 到 TLC 体系 的 自然 分 类 ， 这 对 研究 
TLC 的 作用 机 制 有 一 定 意义 。 如 欲 将 溶剂 体系 分 为 两 类 ， 以 便 设计 一 个 二 维 TLC 系统 ， 可 
从 两 类 溶剂 中 分 别 取 一 种 于 垂直 的 两 个 方向 展开 ， 将 最 高 的 连接 线 切 断 ， 即 A、B、C 是 一 
X, D. E 是 另 一 类 。 

同 理 ， 可 对 此 TLC 溶剂 体系 用 其 他 的 系统 聚 类 的 方法 来 进行 分 析 ， 下 面 列 出 最 长 距离 
法 、 重 心 法 、 方 差 平 方 和 法 的 结果 和 聚 类 谱系 图 ， 以 便 读者 理解 这 些 方法 的 运算 过 程 。 
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TLC 溶剂 体系 的 
最 短 距离 法 聚 类 谱系 图 








对 于 最 长 距离 法 ， 首先 因 为 这 五 类 之 间 的 最 小 距离 为 DE， 即 DD 与 EF 是 最 相似 的 溶 
剂 体系 ， 也 是 将 DE 合并 为 一 类 ， 记 为 D*， 表 7-8 列 出 了 DE XE Jg —2$ D* 后 的 欧 氏 距 
离 ， 从 此 表 可 以 看 出 ， 当 前 类 与 类 间 最 小 的 距离 为 BC， 将 它们 再 聚 为 一 类 ， 并 将 记 为 








B* 后 的 欧 氏 距离 表示 于 表 7-9， 最 后 将 A 与 B* 合并 为 一 类 A* ， 其 类 间距 离 表示 于 表 
7-10, 


EB 最 长 距离 法 DE 聚 为 一 类 D 后 的 欧 氏 距离 











LEE) 最 长 距离 法 DE、BC 聚 类 后 的 最 长 距离 法 A 与 8“ 聚 类 后 的 
欧 氏 距离 欧 氏 距离 
溶剂 体系 A B* D' 溶剂 体系 AC D' 
A 0 A* 0 
B* 40 0 D* 111.4 0 




















w 


上 述 结果 可 绘 成 谱系 图 ( 见 图 7-9)， 此 结果 与 最 短 距离 法 是 完全 一 致 的 ， 只 是 类 间距 
有 所 不 同 。 























TLC 溶剂 体系 的 
最 长 距离 法 聚 类 谱系 图 





对 于 重心 法 ， 首 先 也 是 将 DE 并 为 一 类 ，, 记 为 D*， 表 7-11 列 出 了 DE 聚 为 一 类 万 
后 的 欧 氏 距离 。 

在 表 7-11 BP. C 点 与 新 类 D* 间 的 距离 ， 是 原 CD 与 CE 间距 离 的 均值 。 聚 类 过 程 继 续 
进行 ， 从 此 表 可 以 看 出 ， 当 前 类 与 类 间 最 小 的 距离 为 BC， 将 它们 再 上 聚 为 一 类 ， 并 记 为 B* 
后 的 欧 氏 距离 示 于 表 7-12， 最 后 将 A 与 B* 合并 为 一 类 A* ， 其 类 间 欧 氏 距 离 示 于 表 
7-13。 
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重心 法 DE 聚 为 一 类 D ”后 的 欧 氏 距离 








重心 法 DE、BC 聚 类 后 的 欧 氏 距离 重心 法 A 与 B“ 聚 类 后 的 欧 氏 距离 
溶剂 体系 A B“ D* 溶剂 体系 A* D* 





A 0 PT " 








上 述 结果 可 绘 成 谱系 图 LE 7-10) ， 此 结果 与 前 述 方法 也 是 完全 一 致 的 。 


A B C 


L— 
t3 




















ERAND TLC 溶剂 体系 
的 重心 法 聚 类 谱系 图 














方差 平方 和 法 的 步骤 与 上 述 方法 略 有 不 同 ， 其 过 程 如 下 : 首先 将 A、B、C、D、E 仍 
看 成 五 类 ， 此 时 总 方差 S 二 0， 然 后 将 其 中 任意 两 类 合并 ， 并 计算 它们 合并 后 的 方差 平方 和 ， 
例如 将 A、B 合并 ， 所 得 的 方差 平方 和 为 








2 
SAB 一 M ass cg ABAE Ane cupo) (7-71) 
i1 
式 中 
(100 十 80)/2 90 
sam | 80+60)/2 |_|70 
(70 十 50)/2 60 
(60 十 40)/2 50 
100 80 
80 60 
XAB. = x = 
ABA — | 70 AB. | 0 
60 40 


S Ap —400-4-400 — 800 


如 将 B、C 合并 ,所 得 Ssc—150, 一 切 可 能 两 两 并 类 增加 的 方差 平方 和 列 于 表 7-14. A 
ED 合并 S 增加 最 少 ， 故 可 将 它们 合并 ， 然后， 再 计算 ED 与 其 他 没 并 类 的 A、B、C 进行 
并 类 ， 发 现 所 增加 的 方差 较 多 ， 而 将 BC 并 类 使 方差 增加 较 少 ， 故 可 先 将 BC 并 类 ， 然 后 再 
考虑 所 有 可 能 的 并 类 ， 重 复 上 述 步骤 ， 直 至 所 有 样本 归 为 一 类 为 止 。 对 TLC 溶剂 体系 的 方 
差 平方 和 法 并 类 依 况 示 于 表 7-15， 它 很 类 似 于 其 他 系统 聚 类 的 方法 ， 所 得 结果 也 相同 。 从 
上 述 讨 论 可 知 ， 在 此 介绍 的 八 种 系统 聚 类 方法 的 确 是 具有 一 定 共性 的 。 
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两 两 并 类 后 S 的 增加 量 




















溶剂 体系 S Ax S sx Scx S px Sex 
A 0 
B 800 0 
C 750 150 0 
6010 2500 1425 0 
6200 2600 3250 100 0 


TLC 溶剂 体系 的 方差 平方 和 法 并 类 情况 








二 、 一 分 为 二 法 


系统 聚 类 是 使 类 由 多 到 少 ， 另 一 种 分 类 的 思想 是 分 解法 ， 是 使 类 由 少 到 多 ， 开 始 全 体 样 
本 全 为 一 类 ， 然 后 分 成 两 类 、 三 类 、… 直 至 所 有 的 样本 各 自 成 一 类 。 一 分 为 二 法 就 是 这 样 一 
种 分 解 方法 。 

【基本 思路 】 

一 分 为 二 法 是 将 某 一 类 分 解 成 为 两 子 类 的 方法 ， 然 后 对 其 子 类 又 可 一 分 为 二 。 其 基本 思 
路 是 在 不 断 的 分 解 过 程 中 ， 使 得 类 间 方 差 保持 最 大 。 如 设 某 类 G 中 有 ?个 样本 ， 它 的 两 个 
子 类 Cl MG: KA n Mn, 个 样本 ， 两 类 的 重心 ， 即 均值 向 量 分 别 为 ,， 雹 2 和 无 2 ， 而 类 
G BUsE 7g x. WG, Gi 和 Gs 的 方差 平方 和 分 别 为 




















ny 


S =), (xp EP) xy P) k=1,2 
i—l 


AP, x4 (二 1,2,i1 二 1,2,…,n4) 为 样本 向 量 ，S、S1 和 Ss 分 别 为 类 G 和 它 的 两 个 子 
类 G1 和 Gs 的 方差 平方 和 。 如 果 类 分 解 得 合理 ， 应 使 Si +S: 尽 可 能 的 小 ， 或 使 (S 一 Si1 一 
S; RIBERA. üidE-—(G-—S:|—S;). M E 是 此 一 分 为 二 的 分 解 过 程 中 的 目标 函数 ， 根 
据 方差 分 解 定理 ， 可 得 


五 一 (CS Sı S»)=[ (nin2)/n (XD —x OO? )! (x 0 —x(?) 

















或 者 








E=(S—Si1—S2)=[ nn)/n2 Ux dx) (xP 3) 


如 类 G 中 有 个 样本 ， 则 一 切 可 能 的 分 法 有 2” 一 1 种 ， 是 一 个 组 合 优化 问题 ， 一 般 说 
来 ， 求全 局 最 优 解 比较 困难 ,一般 是 求 得 一 个 局 部 最 优 解 。 

【基本 算法 】 

在 此 ， 介 绍 一 种 局 部 最 优 解 的 算法 ， 它 由 下 述 步骤 组 成 。 
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CD 首先 将 个 样本 都 认 作 为 类 G1 的 ， 依 次 从 中 取 一 个 样本 ， 将 其 划 入 G。， 计算 此 
BEES HERAA E., 

(2) 比较 依次 计算 所 得 的 2 个 已 ， 并 从 中 找到 最 大 者 ， 记 为 已 (1) ， 作 为 一 次 成 功 分 解 。 

(3) 继续 分 解 ， 即 从 类 G1 所 剩 (2 一 1) 样本 中 再 取 一 个 样本 划 入 G* ， 并 计算 此 时 的 
目标 函数 已， 比较 依次 计算 所 得 的 (2 一 1) 个 ,并 从 中 找到 最 大 者 ， 记 为 E(2)， 认 作 一 
次 成 功 分 解 。 重 复 此 过 程 ， 可 得 一 系列 最 大 的 已 ， 记 为 下 (3) ,下 (4)，… 下 (CR)， 它 们 分 别 表 
mE Gs 中 含 2 个 样本 、3 PER, e, k 个 样本 的 最 大 EE 值 。 

(4) 找到 一 个 自然 数 &* ， 使 得 


E(k*)—maxE(k) — (k—l,2,-,0) 
(5) Bí * 次 进入 Gsz 的 样本 为 一 类 ， 其 余 (n 一 &* ) 个 样本 为 一 类 ， 一 分 为 二 的 分 解 


完毕 。 

(6) 继续 对 所 得 的 Gi 和 Gs 进行 一 分 为 二 的 分 解 ， 直 至 所 有 的 n 个 样本 独自 成 为 一 
类 为 止 。 
一 分 为 二 法 不 需 大 量 内 存 ， 计 算 量 也 不 大 ， 因 此 是 一 种 较 好 的 聚 类 分 法 。 值 得 提出 的 
是 ， 上 述 一 分 为 二 法 是 利用 类 间 方 差 极 大 为 其 目标 函数 ， 用 其 他 目标 函数 也 是 可 行 的 。 文 献 
[20] 就 介绍 了 一 种 基于 欧 氏 距离 的 一 分 为 二 的 分 解法 。 

三 、 最 小 生成 树 法 

【基本 概念 与 基本 思路 】 

最 小 生成 树 是 图 论 中 的 一 种 算法 ， 也 可 用 来 进行 聚 类 计算 。 在 介绍 最 小 生成 树 方法 之 
前 ， 有 必要 介绍 一 下 有 关 图 论 和 树 的 基本 概念 。 

图 由 结 点 的 集合 Y 和 边 的 集合 已 组 成 




































































c 


V-—ivisUsUs tO v,) (n 为 结 点 的 数目 ) 
E-—ej.essegoteyu) in 为 边 的 数目 ) 


即 图 G 可 表示 为 : 





G={V,E} 


在 一 个 图 中 边 的 旁 侧 可 附加 数字 以 描述 此 边 的 某 种 数量 特征 ， 这 称 为 边 的 权 。 两 点 之 间 
通过 一 系列 的 边 联系 起 来 ， 这 些 边 称 作 链 ,一 个 链 如 果 是 封闭 的 则 称 这 个 链 组 成 一 个 回路 ， 
如 果 个 点 之 间 都 有 链 互 相 联结 ， 则 称 这 些 点 和 链 组 成 了 一 个 联结 图 ， 没有 回路 的 联结 图 
叫做 树 。 如 果树 包含 了 ?7 个 点 ， 则 称 这 个 树 为 联结 图 的 支撑 树 ， 树 的 所 有 边 的 长 度 之 和 叫 
做 树 的 重量 。 在 联结 图 中 具有 最 轻重 量 的 支撑 树 叫 做 最 小 生成 树 ， 亦 称 最 小 支撑 树 。 

最 小 生成 树 可 按 Kruskal 算法 找 出 ， 这 个 算法 十 分 简单 ， 要 求 将 权 值 最 小 的 边 绘 入 树 
中 ， 但 不 得 与 已 有 的 边 形 成 回路 。 

【基本 算法 】 

最 小 生成 树 的 图 论 算法 如 下 : 

D 先 计算 各 点 间 的 距离 。 

C 连接 最 小 距离 的 两 点 ， 然 后 连接 次 小 距离 的 两 点 。 

继续 连接 所 剩 下 的 点 中 最 小 距离 的 两 点 ， 并 检查 是 否 形成 回路 ， 如 形成 回路 则 取消 
连接 ， 否 则 ， 继 续 连 接 ， 直 至 所 有 的 点 都 被 连接 。 
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CD 对 连接 所 得 的 树 进行 检查 ， 找 到 最 大 距离 的 边 ， 将 其 割断 ， 即 得 两 类 ， 如 此 继续 分 
割 ， 直 至 类 数 已 达到 所 要 分 的 类 数 。 

如 对 前 述 的 TLC 溶剂 体系 进行 最 小 生成 树 分 类 ， 可 得 与 系统 聚 类 法 完全 一 致 的 结果 。 
文献 L3] 对 系统 聚 类 法 中 的 最 小 距离 法 与 最 小 生成 树 的 关系 进行 了 较 详 细 的 讨论 ， 并 证 明了 
最 短 距 离 法 是 在 以 最 小 生成 树 为 基点 定义 的 误差 函数 下 的 最 合理 的 聚 类 方法 。 


四 、K- 均 值 聚 类 法 


用 系统 聚 类 法 聚 类 ,样品 一 旦 划 入 某 个 类 以 后 就 不 变 了 了， 这 要 求 分 类 的 方法 比较 准确 ， 
此 外 ， 系 统 聚 类 法 一 般 要 存 人 距离 矩阵 ， 当 ?7 较 大 时 占用 的 内 存 太 多 。 计 算 方法 的 迭代 思 
想 给 我 们 以 启发 ， 能 和 否 先 给 一 个 粗糙 的 初始 分 类 ， 然 后 用 某 种 原则 进行 修改 ， 直 至 分 类 比较 
合理 为 止 。 采 用 这 种 思想 产生 的 聚 类 分 析 法 叫做 动态 聚 类 法 。 为 了 得 到 初始 分 类 ， 有 时 设法 
选择 一 些 凝 聚 点 ， 证 样品 按 某 种 原则 向 凝聚 点 凝聚 。 动 态 聚 类 法 大 体 可 用 图 7-11 表示 : 
































三 | 
AE 





最 终 分 类 






选 凝 聚 点 初始 分 类 


动态 聚 类 法 程序 框图 


图 7-11 的 每 一 部 分 均 有 很 多 种 方法 构成 ， 这 些 方法 按 框 图 进行 组 合 就 可 得 到 很 多 种 动 
态 聚 类 法 。 在 本 节 只 讨论 其 中 一 种 ， 即 天 -均值 聚 类 法 ， 它 是 一 种 使 用 较 多 的 方法 。 该 法 最 
早 是 由 MacQueenl2 提 出， 随后 许多 人 对 此 作 了 改进 。 

【基本 思路 】 

K- 均 值 聚 类 法 的 基本 思路 是 先 人 为 地 定 出 一 个 分 类 数目 &， 并 任 取 & 个 点 作为 初始 凝聚 
点 ， 然 后 ， 逐 个 将 别 的 样本 引入 ， 引 进 一 个 样本 就 计算 它 与 & 个 类 的 距离 (与 重心 的 距离 )， 
选 定 距离 最 小 者 将 其 并 人 该 类 ， 再 重新 计算 各 类 的 重心 ， 并 以 该 重心 作为 新 的 凝聚 点 ， 直 至 
每 个 样本 都 有 各 自 的 归 类 。 

【基本 算法 】 

CD 最 简单 的 开 - 均 值 聚 类 法 的 计算 过 程 

Q@ 人 为 地 定 出 一 个 分 类 数目 ， 取 前 & 个 点 作为 初始 凝聚 点 。 

O 将 剩余 的 (x 一) 个 样本 逐个 引入 ， 计算 它 与 已 有 个 类 的 距离 (与 重心 的 距离 )， 
选 定 距离 最 小 者 ， 将 其 并 入 该 类 ， 再 重新 计算 各 类 的 重心 ， 并 以 该 重心 作为 新 的 凝聚 点 。 

( 将 区 个 样本 再 从 头 至 尾 逐 个 引入 ， 计 算 它 与 已 有 & 个 类 的 重心 的 距离 ， 选 定 距 离 最 
小 者 ， 将 其 并 入 该 类 ， 再 重新 计算 各 类 的 重心 ， 并 以 该 重心 作为 新 的 凝聚 点 。 如 果 ?个 样 
本 通过 后 所 分 的 类 与 原来 的 类 相 比 没有 改变 ， 则 过 程 停止 ， 否 则 重复 第 @ 步 。 

从 上 述 计算 过 程 可 以 看 出 ， 此 算法 计算 简单 ， 分 类 迅速 ， 占 用 计算 机 内 存 小 ， 但 由 于 人 
为 地 定 了 & 个 类 ， 有 时 定 得 不 合适 影响 分 类 效果 ， 改 进 的 办 法 是 在 修改 分 类 的 过 程 中 类 的 数 
目 也 可 以 根据 情况 有 所 变化 ， 太 近 的 类 可 以 合并 ， 太 远 的 类 可 以 分 离 出 来 产生 新 类 。 下 面 将 
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给 出 改进 后 的 开 - 均 值 聚 类 算法 。 

(2) 改进 的 天 -均值 聚 类 法 的 计算 过 程 

O 人 为 地 定 出 三 个 数目 上 、c 和 >。 

© 取 前 & 个 点 作为 初始 凝聚 点 ， 计 算 & 个 凝聚 点 两 两 之 间 的 距离 ， 如 最 小 距离 小 于 c, 
则 将 相应 的 两 凝聚 点 合并 ， 用 这 两 点 的 重心 作为 新 凝聚 点 ， 重 复 此 步骤 ， 直 至 所 有 凝 聚 点 之 
间 的 距离 均 大 于 等 于 c 为止。 换言之 ， 即 要 使 凝聚 点 两 两 之 间 的 距离 均 大 于 等 于 c， 如 小 于 
c， 则 用 系统 聚 类 法 中 的 重心 法 对 凝聚 点 进行 合并 。 

C) 将 剩余 的 (2 一 &) 个 样本 逐个 引入， 计算 它 与 已 有 & 个 凝聚 点 的 距离 ， 如 最 小 距离 大 
于 7-， 则 该 样本 作为 新 的 凝聚 点 ; 选 定 距离 最 小 者 ， 将 其 并 和 人 最 靠近 该 样本 的 凝聚 点 ， 再 重 
新 计算 各 类 的 重心 ， 并 以 该 重心 作为 新 的 凝聚 点 。 

重新 验证 新 凝聚 点 两 两 之 间 的 距离 ， 如 距离 小 于 c， 则 将 相应 的 两 凝聚 点 合并 ， 用 这 两 
点 的 重心 作为 新 凝聚 点 ,重复 此 步骤 ， 直 至 所 有 凝聚 点 之 间 的 距离 均 大 于 等 于 <。 

D 将 ?个 样本 再 从 头 至 尾 逐 个 引入 ， 用 步骤 思 的 办 法 归 类 ， 但 与 步骤 四 稍 有 不 同 。 不 
同 之 处 在 于 : 某 个 样本 进入 后 ， 如 分 类 与 原来 的 一 样 ， 则 重心 不 变 ， 如 分 类 与 原来 的 不 一 
样 ， 则 所 涉及 的 两 类 重心 需 重新 计算 。 

如 果 n 个 样本 通过 后 所 分 的 类 与 原来 的 类 相 比 没有 改变 ， 则 过 程 停止 ,否则 重复 第 

DF, 
由 于 上 述 K- 均 值 聚 类 法 的 分 类 结果 仍 有 很 大 的 不 确定 性 ， 促 使 人 们 设法 对 它们 进行 改 
进 ， 有 关 的 研究 也 很 多 ， 其 中 以 Isodata 命名 的 方法 是 这 一 类 方法 中 最 精细 的 一 个 ， 它 是 美 
国标 准 研 究 所 花费 数 年 时 间 研 究 出 来 的 [2 。 此 外 ， 用 全 局 最 优化 方法 来 改进 K- 39 RA 
是 目前 化 学 计量 学 研究 中 的 一 个 重要 课题 ， 将 在 后 述 章节 加 以 适当 介绍 。 


五 、 基 于 全 局 寻 优 的 聚 类 法 


【基本 思路 】 

从 前 述 讨论 可 知 ， 聚 类 分 析 实 际 上 可 看 成 一 个 优化 过 程 ， 它 通过 优化 某 一 特定 的 目标 函 
数 而 达到 最 好 的 分 类 。 由 于 聚 类 目标 函数 的 严重 非 线性 ， 用 传统 的 局 部 优化 方法 难以 找到 全 
局 最 优 解 ， 因 此 需 用 全 局 优化 方法 。 对 于 个 样本 划分 为 c 类 的 问题 ， 可 能 的 组 合 划 分 数 


HUS, 
T 1 
s=— D |en=] |k” (7-72) 
c! k=l k 


TE 100 个 样本 分 为 两 类 ， 用 穷 举 法 需 计 算 高 达 2—1 种 划分 ， 以 确定 最 优 解 ， 且 用 
其 他 确定 性 的 全 局 优化 方法 也 因 计 算 量 过 大 而 难以 实现 。 随 机 性 的 全 局 优化 方法 在 处 理 上 述 
问题 上 优 于 确定 性 全 局 优化 方法 ， 遗 传 算法 和 模拟 退火 法 作为 随机 性 的 全 局 优化 方法 已 开始 
引入 化 学 聚 类 分 析 [225 ， 它 们 的 共同 之 处 是 将 聚 类 分 析 构 造成 非 连 续 的 组 合 优化 问题 ， 即 
通过 寻找 各 个 样本 对 各 类 的 划分 而 求 得 最 优 目 标 函 数 ， 由 上 式 可 知 此 类 方法 计算 量 巨 大 ， 需 
消耗 很 长 时 间 才 能 找到 最 优点 。 在 此 讨论 的 是 连续 型 优化 模型 ， 即 通过 找 出 各 类 中 心 的 正确 
位 置 而 达到 正确 聚 类 ,使 所 有 点 到 其 所 属 类 中 心 距离 的 和 最 小 ， 避 免 了 求解 组 合 优化 问题 ， 
从 而 减少 了 计算 量 ， 提 高 优化 效率 。 遗 传 策略 -2 被 用 于 在 连续 的 实数 空间 寻 优 ， 此 法 是 一 
种 借鉴 生物 界 自然 选择 和 自然 遗传 机 制 的 随机 搜索 优化 策略 ， 隐 含 并 行 性 和 对 全 局 信息 的 有 
效 利 用 能 力 是 其 两 大 特点 ， 前 者 使 遗传 算法 只 须 检测 少量 的 结构 就 能 反映 搜索 空间 的 大 量 区 
域 ， 后 者 使 遗传 算法 具有 稳健 性 〈 即 不 会 收敛 至 局 部 最 优 )， 故 它 尤 其 适 于 处 理 传统 搜索 方 
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法 解决 不 了 的 复杂 和 非 线 性 问题 (参见 第 三 章 )。 在 此 ， 以 遗传 算法 为 例 来 对 基于 全 局 寻 优 
的 聚 类 法 加 以 说 明 ， 当 然 ， 其 他 全 局 最 优 方法 ， 如 模拟 退火 [3] 和 基于 数论 的 序 贯 优化 算法 
也 同样 是 可 行 的 ， 因 它 们 的 基本 原理 是 类 似 的 。 在 此 就 不 再 一 一 闭 述 。 

遗传 算法 通过 模拟 生物 的 遗传 、 变 异 和 自然 选择 过 程 ， 将 一 代 群 体 变 换 为 新 一 代 的 群 
体 。 在 这 里 每 代 群 体 由 一 组 染色 体 组 成 ， 每 条 染色 体 代 表 搜 索 空间 内 的 一 个 解 。 染 色 体 由 竺 
求 参 数 排列 在 一 起 构成 。 通 过 对 上 一 代 〈 父 代 ) 群体 中 的 染色 体 进行 有 选择 的 复制 、 交 叉 和 
变异 ， 可 产生 新 一 代 〈 子 代 ) 群体 ， 此 过 程 一 直 重 复 ， 直 至 达到 最 优 解 。 通 用 做 法 可 简单 描 
述 如 下 。 

Q 染色 体 表 示 。 给 出 搜索 空间 中 染色 体 的 表示 形式 。 将 待 求 参数 的 一 组 取 值 排列 一 处 ， 
构成 一 个 串 ， 此 即 一 条 染色 体 ， 它 代表 所 求 问 题 的 一 个 可 行 解 。 

© 群体 初始 化 。 选 择 一 个 整数 ”作为 群体 的 规模 参数 ， 然 后 在 搜索 空间 内 随机 地 任 取 
n 个 点 ， 每 个 点 用 一 条 染色 体 表示 ， 这 些 染色 体 构 成 初始 群体 。 

© 计算 目标 函数 值 。 将 每 条 染色 体 上 的 参数 取 值 代入 所 求 的 目标 函数 中 ， 计 算出 对 应 
的 目标 函数 值 下。 

CD 将 目标 函数 值 转换 为 适应 性 。 若 目标 函数 值 不 适 于 以 后 的 交叉 和 变异 过 程 ， 将 其 转 
换 成 适合 的 值 。 在 我 们 讨论 的 问题 中 ， 需 求 目 标 函 数 的 最 小 值 ， 因 此 使 目标 函数 值 小 的 染色 
体 适 应 性 大 ， 故 采取 如 下 转换 : 


fitness(i) -[max(F) —F G) ]/[maxCF) — minCF) ] (7-73) 


C) 根据 适应 性 大 小 ， 设 计 一 个 随机 选择 规则 ， 复 制 出 下 一 代 群 体 。 本 文采 用 赌 盘 选 
择 技术 。 此 选择 过 程 虽 是 随机 的 ， 但 每 个 染色 体 被 选择 复制 的 机 会 却 直接 与 其 适应 性 成 
正比 。 

@ 交叉 和 变异 。 交 叉 是 以 概率 P. 交换 两 条 染色 体 间 对 应 位 置 上 的 分 量 。 变 异 是 以 概率 
P, 改变 染色 体 上 的 每 一 位 的 值 。 本 文通 过 如 下 方式 实现 : 




























































































£g = p (1 Erand) (7-74) 


XP. rand JJ (0. DD. 均匀 分 布 的 随机 数 。 

整个 优化 过 程 通过 第 3 步 至 第 6 步 之 间 的 循环 实现 。 目 标 函 数 收敛 后 停止 。 

在 此 介绍 的 方法 是 一 种 基于 前 述 天- 均值 聚 类 法 的 方法 。 首 先 确 定 各 类 中 心 ， 然 后 根据 
样本 点 与 各 中 心 的 距离 进行 分 类 。 因 此 构造 的 目标 函数 依赖 于 各 类 的 中 心 。 遗 传 算 法 用 来 搜 
索 正 确 的 类 中 心 ， 若 样本 空间 为 p 维 ， 共 分 c 个 类 ， 则 需 优 化 pc 个 实 参 数值 。 对 于 不 同 的 
方法 ,目标 函数 的 构造 过 程 不 同 。 可 分 别 描 述 如 下 : 

设 样本 数据 矩阵 可 表示 为 : 



































| zi vi vip| i 
U2 U22 U25 y» 
V 一 | ’ | (7-75) 
Uj UVjg '" Uj, vj 
| Un Un2 n Up | vi 
AP, n 为 样本 点 数 ; p 为 样本 维 数 。 各 类 中 心 可 表示 为 : 
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o= xd P (7-76) 
0; Oj 9 gy o! 
EZ Oc2 Ocp | 0. 




















UB. c 为 类 数目 ; p 为 样本 向 量 的 维 数 。 优 化 的 目标 函数 定义 为 : 


minF (W,0) = >) yw; D? (0; .v;) (7-77) 


i-1j-1 











式 中 ， W-(wij 12g cXn 的 权重 和 矩阵， Mw; =], w; € (0,1) ; DG; ,0;) 为 第 j 个 样 
i=l 
本 到 第 i 个 中 心 之 间 的 欧 氏 距离 ， 即 


b 
Dv; ,0;) 一 X) woa)? (7-78) 
l=1 


DG; ,0;) 为 第 j 个 样本 点 到 第 i 个 中 心 之 间 的 距离 ，H min(vj) 人 oj 全 max(vj/) (二 1,…， 
7123 一 1 ,Cl 二 1,…,p)。 若 W*”、0O “为 最 优 的 权重 和 类 中 心算 了 泗 ， 对 于 上 述 问 题 可 从 两 
个 方面 进行 优化 : 一 是 寻找 最 优 的 W*， 以 求 得 最 优 的 FW* ,0) 值 ; 二 是 寻找 最 优 的 O*， 
以 求 得 最 优 的 FW,O0* ) 值 。 前 一 方法 为 非 连 续 的 组 合 优化 问题 ， 后 一 方法 为 连续 的 优化 问 
题 ， 其 实质 是 在 p 维 的 实数 空间 内 搜索 出 c 个 点 (类 中 心 )。 

【基本 算法 】 

聚 类 分 析 中 遗传 算法 的 构造 可 由 下 列 步 又 组 成 。 
j 条 染色 体 代 表 c 个 类 中 心 的 一 组 取 法 ， 用 一 个 实 向 量 表示 : x 二 (x1,X,,…,7X4)， 其 
rPd-—pc. p 为 样本 维 数 ，c 为 类 的 数目 。 

d) 将 每 条 染色 体 向 量 转变 为 一 个 类 中 心 和 矩阵， 其 每 个 元 素 可 由 下 式 确 定 : 

oz 一 Zi-_Doi (5 XI 1 过 ce 过 0) (7-79) 


(2) 根据 式 (7-780 计算 样本 vi. vh. ce vi 与 各 个 中 心 of 的 欧 氏 距离 ， 将 每 个 样本 
划分 至 距离 最 近 的 类 ， 得 到 权重 W., 
(3) 根据 W 和 VV 重新 计算 新 的 中 心 oi 05, 0s ol: 


n 
> Wi Vj 
j=l 


0; = 


m n 
> w D 
j=l 


(4) 根据 式 (7-77) 计算 目标 函数 值 下 。 

(5) 将 新 的 类 中 心 转化 为 染色 体 ， 根 据 相 应 的 下 对 其 进行 评价 和 遗传 操作 ， 然 后 转 第 
COD 步 ， 直 至 目标 函数 最 小 。 
【讨论 】 
用 本 算法 对 两 组 分 析 数 据 进行 聚 类 分 析 : 013 种 牛黄 样品 中 微量 元 素 含量 [23] ， 经 标准 
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化 处 理 后 的 数据 列 于 表 7-16; 外 不 同 茶叶 中 几 种 有 机 物 含量 数据 [2 。 


ESAD 经 标准 化 处 理 后 的 13 种 牛黄 样品 中 微量 元 素 含 量 
编号 2? 
1 | 0.2601 1.2663 —0.3583 一 0.8806 2.1462 0.7075 0.3092 


Cr Cu Mn Ti Zn Pb Mo Ca K Na P 





N 


. 4408 —0.8782 —0. 7953 2:7953 
2 | 一 0.5501 —0. 4793 0.4264 —0. 7349 1.6575 0.9897 0.3092 1.1206 —0.9742 —0. 8503 一 0.7975 
3 |—0.2094 1. 4416 1.3222 —0.9609 1.3797 0.2796 


m 


.8715. 0.7906 —0.7823 —0.7128  —0.9002 





4 0.1412 —0.7887 —0.3329 —0.9448 —0.4879 2.3681 —0.1121 0.8089 —0.3985 0.4146 0. 3316 
5- |—0. 0325 0. 3886 


ce 


.9366 —0.8966 —0.3549 


[e] 


.9646 —0.6738 —0.4288 0.7528 1.2395  —0.0790 
6 0.4039 —0.1633 0.3890 —0.2495 —0.4589 





[e] 


.6124 —0.9546 —0.0439 1.3284 0.6620 一 0.3356 





7  —0.8455 1.6040 —0.8126 —0.2655 


ce 
e 

I 
D 
Co 
So 


. 0425 1.1693 —0.5755 —0.2066 0.3871  —0.6435 
8 0.5539 —0.9086 —0.7482 0.2371 —0.4448 —0.0360 





o 
c 
w 
9o 
E 
o 
oo 
w 
Ko 
N 
= 
- 
E 
Do 
N 
pa 
eo 
Cn 

E 
心 
o 
ES 
Co 
oo 
N 








9 0.5880 —0. 6811 一 0. 4788 1.6784 —0. 5340 1. 0765 0. 9546 —0. 4471 1.0406 —0. 7953 0. 7422 

















10 1.5648 —0. 7790 —1. 0007 —0. 4273 —0. 5804 —0. 3776 一 0. 1121 —0.8505 0.8487 0.6620 —0. 2329 
li 0.0178 | 0.9968 —0.9148 0.6422 —0.5779 一 0. 4834 1.5906 —0.4838 0.3026 0.1671 0. 7422 
12 2.6159 —0.8352 —0. 6767 1.9193 —0.5841 —1.1460 0.9546 —0.6580 —1.1660 —1.4827  —0. 7462 
13 1.4905 —1.0622 2.2487 0.8831 —0.583 1.1406 —0.9546 一 0. 8413 —0.9742 . 0.8503 0. 4382 





5 
O 试 样 :1 一 3 为 自然 生成 牛黄 ;4 一 13 为 人 工 培养 牛黄 。 


在 进行 聚 类 分 析 采 用 的 遗传 算法 中 ， 父 代 群 体 规 模 为 20， 通 过 复制 、 交 叉 和 变异 后 产 
^E 80 条 子 代 染色 体 ， 再 从 中 选 出 20 条 好 的 ， 作 为 新 的 父 代 。 其 中 交叉 概率 为 0.7， 变 异 概 
率 为 0.2。 对 各 套数 据 分 类 结果 讨论 如 下 : 

牛黄 是 一 种 常用 中 药 ， 分 为 天 然 的 和 人 工 的 。 在 表 7-16 列 出 的 13 个 样本 中 ，1 一 3 号 
为 天 然 牛 黄 ，4 一 13 号 为 人 工 牛 黄 。 对 此 数据 采用 遗传 法 计算 ， 均 能 在 十 代 之 内 得 出 最 优 结 
R: 1 一 4 号 为 第 一 类 ，5 一 13 号 为 第 二 类 。 最 优 目 标 函 数值 为 站 * = 二 94.2989， 优 于 用 模拟 
退火 求 得 的 结果 (F * —94.3589. 58 7 号 样本 被 误 分 至 第 一 类 )[29] 。 值 得 提出 的 是 ， 若 将 第 
4 号 样本 按 原 数据 分 类 划 为 第 二 类 时 ， 目 标 函 数值 将 增 大 至 95. 2626， 似 不 太 合理 。 

茶叶 是 一 种 消耗 量 很 大 的 商品 ， 由 于 产地 、 加 工 方式 等 不 同 ， 故 种 类 较 多 ， 质 量 不 一 。 
Liu 等 [29] 曾 分 析 了 31 种 茶叶 ， 其 中 包括 三 类 : 绿茶 、 黑 茶 和 乌龙茶 ， 每 类 中 又 各 含 两 种 。 
根据 茶叶 专家 品尝 结果 将 各 种 茶 标号 ， 最 好 的 计 为 1 号 。 对 此 分 析 数 据 采 用 谱系 聚 类 方法 进 
行 了 分 类 。 他 们 的 结果 可 概括 为 : 

第 一 类 : C1—C4, H1—H3, KI—K2, F1-—F4 

第 二 类 : C5—C7. H4—H5, K3-—K4, F5~F7 

第 三 类 : T1— T4, S1—8S4 
根据 此 结果 ， 可 求 得 目标 函数 值 下 为 50. 8600。 

采用 本 文 所 述 分 类 方法 结果 为 

第 一 类 : C1—C4, H1—H3, K1, F1—F4 

第 二 类 : C5—C7, H4—H5, K2—K4, F5—F7 

第 三 类 : T1— T4. SI—8S4 
得 目标 函数 值 下 王 50.6999。 结 果 与 文献 L24] 中 一 致 ， 且 最 长 可 在 10min 以 内 收敛 至 最 优 
点 ， 从 速度 上 看 明显 优 于 文献 [24] 中 的 模拟 退火 方法 〈 需 68min) 。 

对 上 述 两 类 实际 体系 的 分 析 表 明 ， 用 遗传 算法 进行 聚 类 分 析 ， 在 连续 的 实数 空间 中 寻找 最 优 
的 各 类 中 心 ， 计 算 量 比 非 连续 的 组 合 优化 小 ， 分 类 合理 ， 是 一 种 有 效 的 无 监督 模式 识别 方法 。 
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六 、 模 糊 聚 类 法 


在 聚 类 问题 上 可 采用 硬 分 类 和 模糊 分 类 两 种 方法 确定 目标 函数 。 所 谓 硬 分 类 的 结果 是 每 
个 样本 将 绝对 地 划 归 某 一 类 ， 即 每 个 样本 仅 能 属于 一 个 类 ;而 模糊 分 类 的 结果 是 每 个 样本 可 
在 不 同 程度 上 或 多 或 少 地 属于 各 个 不 同 的 类 。 文 献 [24,25] 中 所 用 分 类 方法 均 属 硬 分 类 。 模 
糊 分 类 方法 在 分 析 化 学 文献 中 少见 ，Horia F. Pop 等 30 在 这 方面 作 了 有 益 尝 试 ， 但 他 采 
用 的 是 用 局 部 优化 方法 进行 谱系 聚 类 。 在 此 ， 我 们 将 介绍 用 遗传 算法 来 进行 模糊 分 类 的 
方法 。 

【基本 思路 】 

模糊 分 类 是 根据 Bezdek 提出 的 方法 ， 如 仍 采用 前 节 所 定义 的 符号 ， 则 模糊 分 类 与 前 
节 不 同 之 点 仅 在 于 权重 阵 W， 对 于 硬 分 类 权重 阵 W 的 元 素 只 能 取 1 或 0， 而 模糊 分 类 中 的 权 
重 阵 W 的 取 值 可 在 〈0,1) 连续 变化 。 它 也 是 从 初始 模糊 权重 阵 W 或 类 中 心 阵 O 开始 ， 用 
下 述 两 式 进行 迭代 ， 






























































o; = 一 ——— (7-81) 


Wij — 7 (7-82) 
Yes 2 
pem DCo;, 0,) 


以 上 方法 称 为 模糊 c- 均 值 方 法 (FCM)。 和 寻找 最 优 的 O* 或 W* 都 是 连续 的 优化 问题 。 
找到 O* 或 W* 中 的 一 个 ， 即 可 利用 上 述 两 式 来 相互 求 男 一 个 。 符 先 求 W*”， 需 计算 cxXn 个 
参数 ， 若 先 求 0O* ， 需 计算 。 Xp 个 参数 。 因 一 般 有 pp 二 n， 故 求 0O* 计算 量 小 些 。 因 此 本 文 
是 求 最 优 的 类 中 心 (0O*) 以 使 目标 函数 达到 最 小 ， 直 至 达到 某 一 收敛 准则 (如 用 W* 一 
WHD | <e), 














【基本 算法 】 
具体 算法 可 表示 如 下 : 
目标 函数 为 ”minF (W，, 0) — 9] J w}D?o;, vj) (7-83) 


i=l j=1 


式 中 , W 为 c Xn 的 模糊 权重 阵 。 其 中 Xw; =1, wy € [0，1] 。 在 此 权重 可 在 [0， 
i=1 


p 
1] 区 间 连 续 取 值 ， 而 人 硬 分 类 权重 只 可 取 0 或 1。 同样 利用 式 Dv; 0;)— | > wa — o4)? 
1-1 


n Dem 
2 ws V 
o; = (7-84) 


n 
D. 
1J ij 
j=l 
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> Fe 0;) 


DCo;, 0,) 


(7-85) 


寻找 最 优 的 O* 或 W* 都 是 连续 的 优化 问题 。 找 到 O* S W* 中 的 一 个 ， 即 可 利用 其 中 
一 个 来 求 另 一 个 。 若 先 求 原 * ， 需 计算 c Xn 个 参数 ， 若 先 求 0* ， 需 计算 <cXz 个 参数 。 因 
RA p<n, KCR O ”计算 量 小 些 。 遗 传 算法 用 来 优化 下 的 过 程 基本 与 硬 分 类 相同 ， 只 是 
计算 权重 、 类 中 心 是 利用 上 述 式 (7-84) 与 式 (7-85). 











【讨论 】 
用 本 算法 对 两 组 分 析 数据 进行 了 聚 类 分 析 ，@ 两 类 烟叶 化 学 成 分 分 析 结 果 [5 ， 加 古风 
马 陶器 碎片 中 几 种 主要 和 次 要 无 机 成 分 含量 数据 ( 见 表 7-10 092, 
烟草 的 品种 与 其 化 学 成 分 之 间 的 关系 密切 ， 由 于 化 学 成 分 数目 较 多 ， 在 此 采用 了 26 种 





烟 的 16 种 主要 成 分 。 其 中 第 1 一 13 € OSSA. 9B 14 一 26 号 为 烤烟 。 用 本 文 所 述 模糊 聚 类 
分 类 方法 分 析 ， 结 果 为 第 2 一 13 号 为 第 一 类 , 第 1 号 、 第 14~26 号 为 第 二 类 ， 




















目标 函数 值 



































为 8. 8930X103。 第 1 号 对 第 一 类 的 权重 为 0. 2987， 对 第 二 类 的 权重 为 0.7013， 若 将 其 分 别 
改 为 0.51 和 0.49， 目 标 函 数 将 上 升 至 8.9732X10?, ， 可 见 第 1 号 应 分 至 第 二 类 。 
古 罗马 陶器 碎片 中 几 种 主要 和 次 要 无 机 成 分 含量 数据 
试 样 K;0 MgO CaO TiO; MnO Fez O3 Al O3 
02A 2. 08 3. 56 8. 63 0. 77 0. 08 6.16 7. 40 
02B 1. 88 3. 93 9. 52 0. 93 0. 13 7.07 18. 20 
02C 2.08 3. 40 8. 31 0.91 9. 7.03 9. 80 
02D 1. 94 3.17 9. 99 0. 95 0. 15 7. 32 18. 80 
03 2.34 1. 37 11.50 0. 82 9. 5. 18 23. 10 
05A 3. 15 8. 00 . 85 0. 92 D. 1 8. 88 19. 10 
05B 3.13 8. 45 1.81 0.91 0. 9. 12 20. 00 
05C 2.77 7. 67 71 0. 89 0. 11 8.84 19. 10 
05E 2. 96 7. 80 69 0. 88 0. 12 9. 24 19. 60 
05H 1. 72 1. 45 02 . 40 0.0 6.58 8. 60 
oSI 3. 04 1. 84 3. 31 . 02 0. 09 7.14 20. 80 
06A 3. 06 4. 79 1. 48 0. 84 0. 18 9. 32 21. 90 
06B 3. 03 2. 00 11. 60 .18 0. 06 5. 90 23. 30 
06C 1. 98 3. 51 8. 98 0. 91 0. 16 7.30 18. 40 
08 2.61 3. 08 6. 14 1.0 0. 10 7.92 18. 80 
09A 1. 96 3.57 10. 10 0. 89 0. 17 7.48 18. 30 
09B 3. 61 63 3. 94 0. 84 0. 11 8. 60 19. 80 
09C 2. 24 09 8. 70 0. 86 0. 09 6.81 17. 40 
0A 1. 93 1. 38 0. 75 . 70 0. 02 8. 32 25. 50 
10B 1. 88 41 0. 76 . 72 0. 02 8.21 25. 10 
1A 2.75 1. 34 8. 23 0. 84 0. 07 67 20. 80 
1B 2. 86 2.10 10. 90 . 28 0. 06 6.05 23. 30 
2A 2. 26 1. 27 10. 60 0. 93 0. 03 4. 97 19. 20 
12B 2. 88 2. 02 11. 50 10 0. 07 6.33 22. 20 
13A 3. 60 35. 32 1. 78 0. 96 0. 15 8. 93 19. 80 
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续 表 

ik 样 K;0 MgO CaO TiO; MnO Fez 03 Al O3 
3B 1.76 3. 26 12. 30 0. 86 0. 14 6.01 17.30 
3C 2.18 3. 40 9. 73 0.81 0. 08 6.19 16.00 
13D 2. 10 3. 37 9. 00 0. 94 0.16 7.39 17.40 
13E 1. 92 3. 22 12. 50 0. 93 0. 15 7.76 17.00 
3F 2. 02 3. 24 11.10 0. 93 0.14 7.18 17.30 
14C 2. 92 1.19 12. 60 0. 85 0.07 5.37 21.80 
14E 3. 20 1. 94 9. 71 1.21 0. 05 5. 76 22. 30 
5A 3. 19 2.01 12. 30 1. 32 0.07 6. 30 21.70 
5B 3. 06 1. 78 9.53 1. 20 0. 05 6.62 20. 90 
16A 3. 18 8. 08 1.73 0. 89 0. 12 9. 22 9. 20 
6B 2. 97 8. 59 1.78 0. 86 0.11 8. 90 18. 90 
6C 3. 08 3. 97 1.40 0. 90 0.09 6.86 19. 50 
6D 3. 09 6. 20 1.81 0. 93 0. 15 9. 39 20. 30 
16E 2. 68 5.78 2.25 1. 03 0.12 8. 60 9. 00 
6F 2. 49 8. 12 2.18 0. 88 0. 09 8. 32 18. 00 
6G 2.85 8. 00 2.15 0. 88 0.14 8.91 19. 10 
16H 3. 25 7.43 1.65 0. 89 9.11 9.05 9. 80 
6I 3. 19 5. 95 1.86 0. 93 0. 13 8. 47 20. 10 
22 3. 33 4. 90 1.42 0. 88 0. 17 10.50 23. 60 
25 3. 10 3.01 0. 99 0. 93 0.14 8. 30 22. 00 
27 2. 04 1.37 0.81 1.66 0. 02 8. 80 24. 40 
28 2. 95 6. 63 1.82 0. 96 0.14 9.90 21.50 
32 3. 19 6. 93 1.61 1.03 0. 10 8. 70 21.50 








古风 马 陶 咒 碎 片 中 几 种 主要 和 次 要 无 机 成 分 含量 数据 是 用 原子 吸收 和 发 射 方法 对 48 种 
古代 陶器 中 7 种 主要 和 次 要 成 分 进行 分 析 的 结果 。 对 其 分 类 既是 化 学 上 的 问题 也 是 考古 学 的 
问题 。 由 于 遗传 算法 可 在 高 维 变量 空间 进行 快速 、 有 效 的 搜索 ， 故 直接 将 原始 数据 标准 化 后 
作 模 糊 分 类 ， 不 进行 降 维 ， 以 充分 保留 原 有 数据 结构 。 经 典 的 模糊 -均值 方法 (FCM) 易 
于 陷 人 贰 点 或 局 部 最 优点 5559 ， 我 们 引入 遗传 算法 分 类 ， 算 法 收敛 情况 见 图 7-12， 从 图 上 看 
开始 目标 函数 下 降 较 快 ， 接 近 最 优点 附近 以 后 下 降 较 慢 。 用 本 方法 求 得 的 目标 函数 值 为 下 二 
37. 9785， 而 用 经 典 的 FCM 方法 任 取 初 始点 计算 5 次 ， 求 得 的 目标 函数 值 各 不 相同 ， 分 别 
为 46. 8121、46. 8050、37. 9785、46. 8050、46. 8050， 可 见 经 典 FCM 方法 在 此 确实 易 陷 和 人 
局 部 最 优点 。 而 本 算法 不 受 影响 ,在 各 次 计算 中 最 终结 果 是 确定 的 ， 均 为 37. 9785。 从 这 点 
可 以 反 证 用 本 方法 找到 的 可 能 是 全 局 最 优 。 

如 沿用 文献 [33] 的 样本 编号 ， 分 类 的 结果 具体 为 : 

第 一 类 : 02A, 02B, 02C, 02D, 06C, 08, 09A, 09C, 13B, 13C, 13D, 13E, 13F 
































第 二 类 : 06A, 09B, 13A, 16C, 16D, 16I, 22, 25, 28, 32 

第 三 类 : 03, 05I, 06B, 11A, 11B, 12A, 12B, 14C, 14E, 15A, 15B 
第 四 类 : 05A, 05B, 05C, 05E, 16A, 16B, 16E, 16F, 16G, 16H 
第 五 类 : 05H, 10A, 10B, 27 
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古 罗 马 陶 器 碎片 数据 的 模糊 聚 类 算法 收敛 情况 


第 一 类 与 文献 [33] 一 致 ， 即 原文 中 的 D 类 。 
为 便于 考查 零散 点 与 各 类 的 关系 ， 将 





二 类 由 文献 中 未 能 分 类 的 零散 点 构成 。 
PA A E A 18。 值 得 提出 的 是 ， 文 献 


[33] 中 ， 此 类 的 06A 和 09B 被 误 分 为 EE 类 与 本 文 第 四 类 相对 应 )。 该 文 作者 亦 知 从 考古 





学 家 的 观点 看 它们 不 应 属 下 类 。 我 们 的 方法 在 这 里 成 功 地 将 其 从 下 类 中 剔 出 。 第 三 
献 [33] 的 结果 基本 一 致 。 在 文献 中 它们 先 被 分 为 B 类 和 C 类 








三 类 与 文 


类 ， 然 而 ， 在 讨论 中 结合 考古 


学 知识 分 析 时 ， 发 现 将 它们 分 为 一 类 似 更 合理 ， 这 与 本 法 的 结果 不 谋 而 合 。 男 外 ， 原 来 未 被 


分 类 的 样本 05I 也 被 分 人 第 三 类 





(0.2998) 和 第 三 类 (0.3237) 之 间 的 点 ， 


文献 [33] 中 的 下 类 大 致 相对 应 。 





应 该 分 人 下 类 〈 即 本 文 第 四 类 ) ， 但 用 他 们 的 方法 未 能 达到 。 








， 其 权重 见 表 7-18。 如 





从 权重 看 ，05I 确 为 介 于 第 二 类 














故此 实际 上 是 与 文献 的 结果 相 吻 合 的 。 





第 四 类 与 





不 同 的 是 本 方法 将 样本 16E 和 16F (文献 [32] 中 它们 未 
被 分 类 ) 归 人 此 类 。 有 趣 的 是 ， 在 文献 的 讨论 部 分 中 ， 作 者 按 考古 学 知识 得 出 结论 ， 这 些 点 














第 五 类 与 文献 结果 〈 即 该 文中 














的 A 类 ) 也 基本 一 致 。 只 是 本 文 将 该 文中 未 被 归 类 的 05H 也 分 人 此 类 ， 从 它 对 各 类 的 权重 
看 ，05H 是 介 于 第 三 类 (0.2275) 和 第 五 类 (0.3142) 之 间 的 点 。 
所 有 与 文献 [33] 中 分 法 不 同 的 点 对 各 类 的 权重 见 表 7-18. 
总 之 ， 本 方法 分 类 能 在 高 维 空间 中 进行 有 效 寻 优 ， 分 类 结果 似 比 文献 [33] 更 合理 。 男 
外 ， 从 所 得 模糊 权重 再 仔细 查看 样本 点 与 各 类 的 精细 关系 ， 可 能 更 有 利于 对 所 得 结果 进行 进 
一 步 的 探讨 研究 。 
与 文献 [33] 中 分 法 不 同 的 点 对 各 类 的 权重 
每 类 的 权 重 
样 本 
1 类 2 类 3 类 4 类 5 类 
06A 0. 0735 0. 6023 0. 0334 0. 2403 0.0305 
09B 0. 0662 0. 5702 0. 0705 0. 2680 0. 0251 
13A 0. 0433 0. 6478 0. 0381 0. 2523 0. 0185 
16C 0. 1446 0. 3834 0. 1635 0. 2586 0. 0499 
16D 0. 0283 0. 5869 0. 0196 0. 3541 0. 0111 
161 0. 0168 0. 7383 0. 0134 0. 2254 0. 0062 
22 0. 0894 0. 4940 0. 0845 0. 2731 0. 0590 
25 0. 0723 0. 6544 0. 0765 0. 1612 0. 0356 
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Bk 
每 类 的 权重 
样 本 
13€ "es 3 类 4 类 5 类 

28 0.0467 0. 4864 0.0361 0.4065 0. 0242 
32 0. 0454 0. 4524 0. 0514 0. 4220 0. 0288 
05H 0. 1909 0. 1375 0. 2275 0. 1298 0. 3142 
05I 0. 1500 0. 2998 0. 3237 0. 1554 0. 0711 
08 0. 3382 0. 2549 0. 1738 0. 1835 0. 0497 
16E 0. 0868 0. 3634 0. 0475 0. 4768 0. 0255 
16F 0. 1227 0. 2094 0. 0642 0. 5676 0. 0361 

















第 六 节 ”基于 投影 的 模式 识别 方法 


含有 d 个 参量 的 模式 矢量 ， 是 4 维 空间 中 的 一 个 点 ， 如 a 等 于 2 或 3， 则 可 直接 用 图 形 
显示 这 些 模式 矢量 。 图 形 显示 具有 直观 性 ， 现 代 计算 机 提供 了 强 有 力 的 屏幕 图 形 显 示 功 能 ， 
而 人 眼 具 有 很 强 的 识别 图 形 能 力 ， 同 样 的 字 由 不 同 的 人 书写 ， 人 了 眼 能 识别 其 细微 差别 ， 辨 识 
手迹 真 伪 。 在 二 维 或 三 维 空间 中 显示 的 模式 分 布 情况 ， 借 人 眼 常 能 识别 存在 的 分 类 图 景 ， 也 
就 是 说 人 眼 是 强 有 力 的 模式 识别 器 。 而 当 & >3 时 ， 这 种 直接 显示 则 不 可 能 ， 这 就 涉及 降 维 
的 问题 。 如 何 将 a 维 空间 的 图 景 ， 在 二 维 或 三 维 空间 中 显示 出 来 ， 并 尽 可 能 减少 原 4 维 
空间 中 分 类 信息 的 丢失 ? 这 就 是 我 们 在 这 一 节 将 要 讨论 的 基于 投影 的 模式 识别 方法 主要 
思路 。 

基于 投影 的 模式 识别 方法 也 有 很 多 ， 其 中 最 重要 的 包括 主 成 分 分 析 的 投影 判别 法 〈 亦 称 
Karhunen-Loeve 变换 ，K-L 分 解法 ) SIMCA 方法 、 基 于 偏 最 小 二 乘 分 解 的 特征 投影 法 、 
非 线 性 映照 投影 法 等 ， 因 其 图 形 显示 具有 直观 性 ， 很 容易 为 化 学 家 所 理解 ， 故 它们 在 化 学 模 
式 识别 中 得 到 相当 广泛 的 应 用 ”3~3]。 本 节 将 对 这 些 方法 作出 介绍 。 


一 、 基 于 主 成 分 分 析 的 投影 判别 法 


基于 主 成 分 分 析 的 投影 判别 法 采用 多 元 统计 中 的 主 成 分 分 析 方 法 ， 移 对 样本 量 测 矩 阵 瑟 
直接 进行 分 解 ， 只 取 其 中 的 主 成 分 来 投影 ， 然 后 进行 判别 分 析 ， 故 有 主 成 分 分 析 的 投影 判别 
法 之 称 。 对 样本 矩阵 进行 直接 分 解 在 数学 上 有 几 种 方法 。 在 化 学 计量 学 中 一 般 采 用 的 方法 是 
非 线性 迭代 偏 最 小 二 乘 算法 5 。 这 种 方法 实际 上 是 沿 于 Von Mises 的 乘 震 法 [884 。 另 一 种 方 
法 是 线性 代数 中 常用 的 奇异 值 分 解法 (SVD)。 奇 异 值 分 解法 可 将 任意 阶 实 数 分 解 成 为 三 个 
和 矩阵 的 积 ， 即 







































































































































































X —USV: 


AP, S 为 对 角 和 矩阵 ， 它 收集 了 X OBPEBUITRUE(R: U RI V 2) 3l S i 1 91 1E S5 RU TE TT 
正 交 矩阵， 收集 了 这 些 特征 值 所 对 应 的 列 特征 矢量 和 行 特征 矢量 ， 在 多 元 统计 的 主 成 分 分 析 
中 ， 一 般 被 称 为 得 分 矩阵 和 荷载 矩阵 。 图 7-13 示 出 了 主 成 分 分 析 的 数学 与 几何 意义 。 一 般 
只 需 取 前 儿 个 大 特征 值 所 对 应 的 特征 矢量 作为 主 成 分 ， 样本 量 测 和 矩阵 XX 的 样本 矢量 直接 对 
它们 投影 就 可 得 到 所 需 的 主 成 分 分 析 特 征 投影 图 (参见 图 7-13)。 主 成 分 分 析 的 投影 判别 法 
的 基本 思路 是 基于 主 成 分 分 析 所 得 的 主 成 分 轴 是 该 数据 矩阵 的 最 大 方差 方向 ， 且 这 些 主 成 分 
轴 相 互 正 交 ， 这 样 ， 就 可 保证 在 从 高 维 向 低 维 空间 投影 时 尽量 多 地 保留 有 用 信息 。 
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主 成 分 分 析 的 数学 与 几何 意义 示意 图 


1. 奇异 值 分 解法 (SVD) 与 非 线性 迭代 偏 最 小 二 乘 算法 的 关系 
在 化 学 计量 学 中 ， 大 都 采用 非 线性 迭代 偏 最 小 二 乘 (nonlinear iterative partial least 
squares, NIPALS) 算法 来 进行 主 成 分 分 解 。 非 线性 迭代 偏 最 小 二 乘 实际 是 通过 一 系列 的 最 
小 二 乘 拟 合 过 程 来 直接 获得 下 述 等 式 ， 即 
X —TP' 


NIPALS 算法 可 由 下 述 计算 步骤 构成 。 
D 选择 一 个 初始 上 RE, WA X 和 矩阵 中 模 最 大 的 矢量 作为 初始 上 + IS 











ism 














© p'—t'X; 

© 将 所 得 p 进行 标准 化 处 理 ， 即 令 | p | —1; 

QDr*-—Xp; 

O REEMS, BEER tMr, WREN HR E E IESECNSLERIEXETVS 否则 就 
进行 第 @ 步 ; 


© 如 果 还 未 收敛 ， 则 采用 t* 替代 +1， 进行 第 @@ 步 计算 。 
一 旦 获得 已 收敛 的 t 矢量 (score vector)， 记 为 ti1， 其 对 应 的 p RÆ (loading vector) 
记 为 p11， 继而 用 式 (7-86) 计算 X 矩阵 的 残 差 ， 即 
E; 一 X — t p] (7-86) 
对 于 第 二 对 得 分 〈score) 和 和 荷载 (loading) 矢量 ， 就 可 用 前 述 过 程 继续 对 El 进行 分 
解 ， 如 此 等 等 。 这 样 ， 有 ， 





























X —TP' 


实际 上 ,， 用 NIPALS 算法 所 得 的 得 分 矢量 和 和 荷载 矢量 与 SVD rf 5 Bor 
图 7-14 HH ADR BIJE XR TITE X —USV! 5S X —TP' 2S. KAERRA T-US M V= 
P 即 可 。 

















X —USV' —TP' 
导 到 上 述 的 关系 后 ， 就 不 难 理解 主 成 分 分 析 的 特征 投影 性 质 了 。 
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2. 主 成 分 分 析 与 特征 投影 
为 更 形象 地 显示 出 主 成 分 分 析 与 特征 投影 的 关系 ， 只 需 进 行 一 些 简单 的 计算 。 图 7-15 


示 出 了 这 样 的 计算 过 程 。 从 图 可 以 清楚 看 到 ， 有 

XP—T 
实 因 只 需 对 方程 和 =TP'* 两 边 同 时 右 乘 矩阵 己 ， 并 利用 荷载 矩阵 的 正 交 性 质 即 可 得 〈 参 见 图 
7-185, 




























































































Who ^ m 
US-T V-P 


方程 X=USV' 与 X=TP' 的 关系 示意 图 
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lo 1 
特征 矩阵 











得 分 
















































































示意 图 


主 成 分 分 析 的 特征 投影 计算 过 程 示意 图 


得 到 了 这 样 一 个 关系 ， 主 成 分 分 析 的 特征 投影 性 质 就 不 难 加 以 说 明了 (参见 图 7-16)。 
从 图 可 以 看 出 ， 得 分 矩阵 了 的 第 一 和 第 二 主 成 分 矢量 的 每 一 个 元 素 ， 即 1, 和 1;。， 实 际 就 是 
通过 将 X 矩阵 的 每 一 个 样本 矢量 投影 到 相应 的 荷载 矢量 上 得 到 的 投影 值 (内 积 本 质 上 就 是 
投影 运算 )。 这 样 ， 主 成 分 分 析 中 的 降 维 作 用 也 得 以 实现 ， 实 因 经 SVD 分 解 后 ， 主 成 分 分 
析 中 的 前 几 个 特征 矢量 通常 都 占据 了 X 矩阵 的 绝 大 部 分 方差 。 



























































P T 
ERA PC, 
« Mi 
7 + 
PC, PC, PC, 
隐 性 投影 < 一 > 内 积 产 物 
主 成 分 分 析 与 特征 投影 关系 示意 图 


通过 这 样 的 特征 投影 ， 原 空间 的 样本 点 就 投影 到 低 维 的 主 成 分 空间 而 便于 人 有 眼 的 直接 视 


觉 分 析 了 。 
另外 ， 原 始 的 主 成 分 分 析 一 般 是 对 数据 协 方差 阵 进 行 正 交 变换 而 得 ， 即 
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Q'X'XQ —diag[Ai. As» t, àa] (7-87) 

XB. Q 为 正 交 变换 德 阵 ;， A1，X2，…，X44a 称 为 数据 协 方差 阵 X'X 的 特征 值 ，& 为 样 

本 维 数 。 它 与 前 述 的 奇异 值 分 解法 所 得 的 三 个 分 解 和 矩阵 ， 即 对 角 德 阵 S. BR SU TE EE E U 
HERET ESIE V 分 别 有 什 么 关系 呢 ? 因为 


X —USV: 
Hil X'X —VSU'USV' — VSSV'—diag|Ai. Az. =+, A41]1—9'X' XQ 
又 因为 SS 一 diag[s1, $2» t, sg |X diag[si; 525 9 s4] =diag[s?, sa =, s3], m 
H, X'X=VSSV', BI VIXIXY = diag[s?, s2. =, s3], AX V* W ERr E £3 IE Z HE E, 
V'V—I, MUE, 
V=0 s? =); G=1, 2, 3, cs. d) 





这 就 说 明了 经 典 主 成 分 分 析 与 奇异 值 分 解法 的 关系 。 在 MATLAB 程序 中 ， 主 成 分 分 析 就 完 
全 可 以 用 奇异 值 分 解法 来 蔡 代 了 ， 实 因 在 MATLAB 程序 中 奇异 值 分 解法 特别 简单 ， 用 下 述 
一 句 话 即 可 得 所 需 结 





[U.S .V]-svdCX) 


下 面 ， 在 介绍 主 成 分 投影 判别 法 的 算法 时 ， 将 直接 采用 SVD 来 讨论 。 
主 成 分 投影 判别 法 的 算法 十 分 简单 ， 它 可 由 下 述 步骤 组 成 。 
CD 对 前 述 的 样本 数据 矩阵 X 进行 奇异 值 分 解 ， 得 


X —USV: 


(2) &US-—T-—[t,.to stilo dE eR EMW B EE. — REUS; 等 于 8505 Jr 28 
所 对 应 的 得 分 矢量 ti ,ts,… ,th PEXETTTERI, BERI t; G — 1,2, 7 ,ADE t; G — 1,2, AE 
图 ， 即 得 如 图 7-17 所 示 的 主 成 分 特征 投影 图 ， 不 同类 的 样本 点 聚集 在 不 同 的 位 置 。 一 般 说 
来 ， 前 两 个 对 应 于 最 大 特征 值 的 得 分 矢量 所 得 的 投影 图 所 含 信息 最 多 。 

基于 主 成 分 分 析 的 投影 判别 法 既 可 用 于 判别 又 可 用 于 聚 类 ， 实 因 我 们 可 很 容易 地 从 投影 
图 中 看 出 样本 与 样本 的 关系 ， 故 主 成 分 分 析 的 投影 判别 法 在 化 学 计量 学 中 得 到 了 非常 广泛 的 
应 用 。 

Jellum 等 0 用 毛细 管 色 谱 法 对 16 个 脑 组 织 试 样 进行 分 析 ， 在 色谱 图 中 取 多 达 156 参量 
(可 辨认 的 156 个 峰 处 的 峰 高 )， 组 成 (16X156) 阶 和 矩阵 ， 通 过 将 矩阵 作 主 成 分 分 解 ， 分 别 
求 得 对 应 于 两 个 最 大 特征 值 的 得 分 矢量 11 Mta, JEA ti Mts 为 投影 轴 作 图 ， 得 到 如 图 7- 
17 的 显示 图 形 。 图 7-17 中 三 en Li E 圆 是 正常 脑 组 织 样 。 有 趣 的 是 ，4 
号 样 原 标签 为 “肿瘤 脑 组 织 ” 样 ， 但 从 显示 图 看 ， 这 个 样本 应 属 正常 脑 组 织 样 ， 经 核查 ，4 
号 样 确 属 正常 脑 组 织 误 标 为 “ RU IR M E tte 取 最 
大 的 2 (或 3) 个 特征 值 所 对 应 的 得 分 矢量 ， 可 在 二 维 空间 (或 三 维 空间 ， 多 数 微型 计算 机 
作 图 软件 有 三 维 作 图 功能 ) 显示 样本 在 模式 空间 的 分 布 ， 人 有 眼 即 能 进行 分 类 和 判别 。 

【基本 思路 】 

主 成 分 分 析 的 投影 判别 法 的 基本 思路 是 基于 主 成 分 分 析 所 得 的 主 成 分 轴 是 该 数据 矩阵 的 
最 大 方差 方向 ， 且 这 些 主 成 分 轴 相 互 正 交 (参见 第 五 章 第 四 节 )， 这 样 ， 就 可 保证 在 从 高 维 
向 低 维 空间 投影 时 尽量 多 地 保留 有 用 信息 。 如 果 对 样本 量 测 数据 矩阵 X 的 构成 作 如 下 规定 ， 
可 以 很 清楚 地 看 出 主 成 分 分 析 的 投影 性 质 。 令 样本 数据 矩阵 表示 为 : 























































































































RP, n 为 样本 点 数 ，d 为 样本 维 数 。x! (i 一 1，2， 
es d) 称 为 变量 向 量 。 因 为 


l, 2, 


即 
亦 即 


XV — 
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脑 组 织 试 样 色谱 数据 的 主 成 分 投影 图 


Tı X12 
T2 T22 
X= 
Tj X j2 
| Un Ta? 














[E 
Zaa | xi | 
t 
X 24d X2? 
t 
T jd Xx; 
Tad | [X x J 











X —USV: 
XV —US 
xi xivi 
xi X5Yi 
[vi Vas ttt. vA] m 
t t 
[Xn | [Xnv1 











=[ x X»* 


t 
X,4,V2 


sy x4] 





t 
X;VA | 


(7-88) 


ee n) 称 为 样本 向 量 ， Xj g= 


(7-89) 


可 见 和 矩阵 US=T ORPRIE PREME AIFI EE 的 每 一 个 元 素 实 际 是 每 一 个 样本 向 量 x, G — 


T2245 





它 反映 了 样本 与 样本 之 间 的 相互 关系 ; 同 理 可 得 ， 和 荷载 矩阵 的 每 一 个 元 素 实 际 是 每 一 








向 量 x; (j 二 1，2， 


【基本 算法 】 


主 成 分 投影 判 另 
(1) o ntt KIA 


DIOSES URB Pe V 中 的 每 一 相互 正 交 的 荷载 矢量 的 投影 坐标 〈 内 积 本 质 上 就 是 投影 )， 





Ex 
个 变量 


Ue d) 对 得 分 和 矩阵 中 的 每 一 相互 正 交 的 得 分 矢量 的 投影 坐标 ， 它 反映 了 
变量 与 变量 之 间 的 相互 关系 。 





I 法 的 算法 十 分 简单 ， 它 可 
本 数据 矩阵 X 进行 奇异 值 分 解 ， 得 








X —USV: 


日 下 述 步 骤 组 成 ; 
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(2) ^ US—T-[|t, bo. 
所 对 应 的 得 分 矢量 1 ,t2，… 


说 来 ， 前 两 个 对 应 于 最 大 特有 


,tj]， 得 非 标准 化 的 得 分 和 矩阵， 一 般 取 之 y; 等 于 8526 87728 


sta 来 进行 作 图 ， 即 用 1; (i 二 1,2,…,A) 对 t(j 二 1,2,…,A) 作 
图 ， 即 得 如 图 7-18 所 示 的 主 成 分 特征 投影 图 ,不 同类 的 样本 点 当 聚 集 在 不 同 的 位 置 。 一 般 














F 值 的 得 分 矢量 所 得 的 投影 图 所 含 信息 最 多 。 


原始 数据 





Y 
- 选择 一 类 数据 点 建 模 
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| 选择 建 模 所 需 的 主 成 分 数 


Y 
El 
XE e L 
在 奇异 样本 ? 
Ja 


其 他 类 样本 点 ? 



















































所 建 模型 合理 吗 ? 


是 
分 析 未 知 样本 





SIMCA 方法 的 计算 全 过 程 框图 


值得 指出 的 是 ， 基 于 主 成 分 分 析 的 投影 判别 法 既 可 用 于 判别 又 可 用 于 聚 类 ， 实 因 我 们 可 


很 容易 地 从 投影 图 中 看 出 样 





本 与 样 











得 到 了 非常 广泛 的 应 用 。 


本 的 关系 来 ， 故 主 成 分 分 析 的 投影 判别 法 在 化 学 计量 学 中 


二 、 基 于 主 成 分 分 析 的 SIMCA 分 类 法 
本 节 将 介绍 化 学 模式 识别 中 一 个 较 通用 的 方法 一 一 SIMCA 法 [4~43] ， 这 一 方法 根据 其 


设计 者 定名 的 含义 [5 是 “统一 均线 性 多 元 分 析 ”， 或 “得 类 的 独立 软 模式 ”， 意 为 各 类 样 


























本 独立 地 建立 局 部 “ 软 ” 模 式 ， 或 简易 分 类 算法 。 第 二 个 解释 较 确 切 地 反映 了 此 法 的 





+ 
S. 


【基本 思路 】 

















SIMCA 方法 是 一 种 建立 在 主 成 分 分 析 基 础 上 的 模式 识别 方法 ， 其 基本 思路 是 先 利用 主 
成 分 分 析 的 显示 结果 得 到 一 个 样本 分 类 基本 印象 ， 然 后 分 别 对 各 类 样本 建立 相应 的 类 模型 ， 





继而 用 这 些 类 模型 来 对 未 知 检 


【基本 计算 过 程 】 














本 进行 判别 分 析 ， 以 确定 其 属于 哪 一 类 ， 或 不 属于 哪 一 类 





























在 介绍 SIMCA 如 何 具体 建立 类 模型 之 前 ， 首 先 将 介绍 它 的 计算 全 过 程 ， 以 期 读者 先 对 
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该 方法 的 全 貌 有 一 个 完整 的 印象 。 

SIMCA 方法 的 计算 全 过 程 由 图 7-18 示 出 的 框图 给 出 。 从 此 框图 可 以 看 出 ，SIMCA 实 
际 上 是 在 循环 地 使 用 主 成 分 分 析 方 法 ， 它 先是 用 主 成 分 分 析 方 法 来 得 到 整个 样本 的 分 类 ， 然 
后 ， 在 此 基础 上 ， 分 别 建立 各 类 样本 的 主 成 分 模型 ， 继 而 用 它们 来 检验 未 知 样本 ， 判 别 未 知 
样本 的 类 别 。 由 于 整个 SIMCA 计算 过 程 可 在 投影 图 上 直接 进行 ， 所 以 ， 只 要 计算 机 程序 的 
人 机 对 话 界面 建立 得 好 ， 此 方法 可 完全 在 图 上 直接 操作 完成 ， 使 用 起 来 非常 方便 。 将 
SIMCA 编 入 商业 软件 的 例子 很 多 ， 比 较 著 名 的 有 Unscrumb 和 Serius 的 软件 。 

从 上 述 讨论 可 知 ， 在 整个 SIMCA 方法 的 计算 过 程 中 ， 其 与 基于 主 成 分 分 析 的 投影 判别 
法 不 同 的 地 方 在 于 它 对 每 一 类 样本 都 进行 了 主 成 分 建 模 ， 在 此 将 对 这 一 部 分 进行 较 详 细 的 讨 
论 。 为 讨论 方便 ， 首 先 有 必要 介绍 基于 国际 习惯 用 法 的 一 些 表达 式 。 首 先 , 令 样 本 数据 和 矩阵 
表示 为 : 


























" Z rotg 
Zi X12 Zid *1 
t 
T3 TX 29 Xog X» 
X 一 - (7-90) 
Ti Tiz ° Tid X; 
[Tn a2 UT Xa | Lx] 

















Uh. n 为 样本 点 数 ;， d 为 样本 维 数 ; x; (i 二 1,2,…,n) 称 为 样本 向 量 。 则 一 个 样本 
就 由 样本 和 矩阵 中 的 一 个 行 向 量 来 表示 。 又 因为 


X —IxL +USV' +E =1x' +TV'+E (7-91) 














式 中 , US=T, T BVEZRRKRAEERRETGRUSRATAREE; 1=[1,1,…,1]， 为 一 元 素 全 为 1 的 
矢量 ， 其 维 数 为 2 ， 等 于 样本 的 数目 ;， xe 为 所 有 样本 的 中 心 矢 量 。 式 (7-91) iB]. TEE 
行 主 成 分 分 析 之 前 ， 对 样本 数据 矩阵 进行 了 中 心 化 预 处 理 。 对 于 每 一 个 样本 矢量 ， 根 据 式 
(7-91) 有 








xi 二 > 十 ef (=1,2,.…,n) (7-92) 
k 


成 立 。 因 在 式 (07-9) PAWA TRARRE, MAER (7-92) 中 也 引入 了 一 个 误差 矢量 
e; 项 。 引 入 误差 项 应 该 是 不 难 理解 的 ， 在 主 成 分 分 析 中 ， 一般 都 只 取 了 对 应 于 儿 个 大 特征 
值 的 特征 向 量 作 为 主 成 分 ， 那些 很 小 或 只 占 百 分 之 几 的 特征 值 所 代表 的 特征 向 量 都 包括 在 误 
差 向 量 之 中 了 。 男 外 ， 由 式 (7-91) 变 为 式 (7-92) 也 是 不 难 理解 的 ， 如 果 令 X =X— 
lx:， 并 上 略 去 式 (7-91) 中 的 误差 项 ， 就 可 以 通过 简单 的 代数 运算 得 到 上 述 的 样本 矢量 表达 
式 (7-92)。 
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这 正 是 前 述 的 样本 矢量 表达 式 xi! -2itan cei. JRBD x; x Dt 十 ei; (i 二 1， 








“11) 。 有 了 这 样 一 些 说 明 ， 讨 论 主 成 分 分 析 到 
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【 主 成 分 建 模 算法 】 


主 成 分 分 析 建 模 算法 可 由 下 述 步骤 所 组 成 。 





(1) 定义 样本 到 主 成 分 模型 的 距离 





s; —eie;/(d — A) 








这 是 因为 样本 矢量 表达 式 的 前 一 部 分 ， 即 rio, 正 是 主 成 分 荷载 矢量 的 线性 组 合 ， 











(7-93) 
属于 可 由 





主 成 分 模型 表 出 的 部 分 ， 在 样本 矢量 表达 式 中 没 被 主 成 分 模型 所 包含 的 就 是 误差 矢量 ， 所 
以 ， 样 本 到 主 成 分 模型 的 距离 就 是 误差 矢量 的 点 积 ， 式 〈7-93) 中 的 分 母 是 样本 矢量 在 建立 
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了 主 成 分 模型 ， 即 降 维 后 的 自由 度 ， 由 原样 本 空间 的 维 数 减 去 主 成 分 数 而 得 。s; 在 SIMCA 
方法 中 常 被 称 为 第 i 个 样本 的 残余 标准 偏差 (RSD)。 

(2) 定义 整个 类 的 均值 标准 偏差 s。 WS sS [sists tts J METK WI E 
标准 偏差 ;. 可 由 下 式 给 出 





























Se —s's/(n—A—10D (7-94) 


X (7-94) 以 (—A — D. 为 分 母 的 理由 是 为 了 整个 类 的 均值 标准 偏差 不 受 该 类 内 样本 数 多 
少 的 影响 ， 而 且 ， 还 考虑 了 由 于 引入 A 个 主 成 分 所 失去 的 自由 度 。 

(3) 为 了 判别 某 一 样本 与 某 一 类 主 成 分 模型 的 差别 或 相似 程度 ，SIMCA 方法 的 提出 者 
Wold 引 入 了 下 -检验 统计 量 。 从 上 面 的 讨论 可 知 ， 某 一 样本 的 残余 标准 偏差 的 平方 *; RAE 
个 类 的 均值 标准 偏差 的 平方 ;2 分 别 具 有 自由 度 (4 一 A) 和 (4d 一 A)(n 一 A 一 1) ， 据 此 ， 可 
以 采用 自由 度 为 (4 一 A) 4 (d —ADG— A — D 的 下 -检验 来 判别 某 一 样本 与 某 一 类 主 成 分 
模型 的 差别 或 相似 程度 。 下 -检验 或 记 为 Fonit 可 用 来 求 得 一 个 判定 某 样本 是 否 属于 某 类 的 残 
余 标准 偏差 平方 的 上 界 值 : 
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用 于 下 -检验 的 置信 水 平一 般 取 0.05 或 0.01 即 可 。 图 7-19 给 出 了 置信 水 平 取 0.05 或 0.01 
的 由 一 个 主 成 分 建立 的 类 模型 的 例子 。 











置信 水 平 取 0. 05 或 0. 01， 由 一 个 主 成 分 建立 的 类 模型 


由 于 基于 主 成 分 分 析 的 投影 判别 法 主要 是 依靠 人 眼 来 进行 判别 分 析 的 ， 所 以 为 在 主 成 分 
特征 投影 图 将 某 一 类 的 类 模型 形象 给 出 ，Wold 建议 可 直接 从 得 分 矢量 入 手 ， 直 接 找 到 某 一 
类 在 得 分 矢量 上 的 上 限 与 下 限 值 ， 并 以 此 来 定义 主 成 分 的 类 模型 。 某 一 类 在 得 分 矢量 上 的 上 
限 与 下 限 值 可 由 下 述 式 子 算得 : 











=f mina 一 (1/2) Sta 


lower, a 
其 中 s? a =t'ta/n (7-95) 


RE, Fia 表示 第 a 个 主 成 分 。 图 7-20 给 出 了 一 个 由 一 个 主 成 分 建立 的 类 模型 
例子 。 

【未 知 样本 的 归属 判别 】 

对 于 任意 未 知 样本 x; ， 都 可 给 出 它 的 主 成 分 模型 : 





xix Pee 














然后 ， 计 算 它 的 误差 项 ef ， 继 算出 它 到 所 定义 的 主 成 分 模型 的 距离 : 





| sao 分 析 化 学 手册 “10” 化 学 计量 学 





1/28, 
由 极端 得 分 值 表述 的 
由 一 个 主 成 分 构成 的 类 模型 


s; —eie;/(d — A) 


将 它 的 平方 值 与 ;3,, 进 行 比较 ， 即 用 前 述 的 下 -检验 判别 它 是 否 属于 所 定义 的 主 成 分 模型 。 
可 以 看 出 ， 只 要 求 得 了 该 未 知 样本 矢量 的 误差 项 ,判别 就 很 容易 了 。 所 以 ,判别 的 过 程 就 只 
是 误差 项 的 计算 过 程 。 

【未 知 样本 误差 项 的 计算 】 

未 知 样本 误差 项 的 计算 可 由 下 列 步 又 组 成 。 

(1) $e% —xi—xi 

AP, xi 为 所 求 类 的 样本 均值 向 量 ， 为 已 知 值 。 

(2) Xf a—l, 2, =, A 个 主 成 分 进行 下 述 循环 计算 ， 以 求 得 该 样本 在 所 求 类 的 得 分 
ta (d=1, 2, **, A): 














t —e( Dy, 
e lo? 一 e4e pps 
最 终 所 得 的 ei 即 是 未 知 样本 误差 项 。 继 而 用 式 (7-96) 算出 它 与 所 求 主 成 分 模型 的 距离 
s;—eie;/(d —A) (7-96) 


即 可 。 

上 述 求 未 知 样 本 误差 项 的 过 程 始 终 都 用 到 了 主 成 分 分 析 所 得 的 荷载 矢量 的 正 交 性 质 ， 即 
y iv; —0 (G3), 

在 对 SIMCA 方法 的 应 用 进行 讨论 之 前 ， 还 有 必要 先 对 SIMCA 方法 的 分 类 特征 有 一 个 
大 致 的 了 解 。 图 7-21 (a) 示 出 了 一 个 含 两 变量 数据 的 分 布 结构 ， 其 中 交叉 点 为 一 类 ， 星 点 
为 一 类 。 但 此 时 主 成 分 分 析 的 结果 [参见 图 7-21 b) ] 却 无 法 体现 它们 的 分 类 特点 。 

但 是 ， 如 果 采 用 主 成 分 建 模 的 思路 ， 通 过 一 条 直线 〈 即 SIMCA 建 模 中 的 一 个 主 成 分 模 
型 建 模 ) ， 则 可 以 得 到 如 图 7-21 (c) 所 示 的 SIMCA 方法 所 得 两 类 的 分 类 情况 。 图 7-21 Co) 
显示 出 了 SIMCA 分 类 方法 的 两 个 基本 特征 : 可 进行 平行 且 不 连通 的 (disjoint〉 主 成 分 建 
Bi; 多 可 利用 模型 残 差 定义 模型 与 样本 的 分 类 关系 ， 从 而 将 数据 的 结构 和 噪声 区 分 开 来 。 这 
两 点 也 正 是 SIMCA 方法 分 类 思想 的 核心 哲学 思 

试想 如 果 只 是 简单 采用 直接 欧 氏 距离 来 进行 分 类 ， 是 不 可 能 得 到 如 图 7-21 Co) 所 示 的 
分 类 结果 的 。 这 表明 SIMCA 方法 可 对 一 些 复杂 结构 进行 正确 分 类 ， 特 别 是 对 一 些 仅 由 一 个 
主因 子 决定 其 变化 的 类 型 数据 将 特别 有 用 ， 而 这 样 的 情况 在 化 学 数据 中 非常 多 见 [5'4] 。 利 
用 模型 残 差 来 定义 模型 与 样本 的 分 类 关系 ， 清 楚 地 将 数据 的 结构 和 品 声 区 分 开 来 是 SIMCA 
分 类 方法 的 第 二 个 优点 。 在 现今 存在 的 多 种 分 类 方法 中 ，SIMCA 分 类 方法 提出 的 处 理 多 变 
量 相关 关系 的 重要 性 可 参见 文献 [17]。 
























































第 七 章 ”化 学 模式 识别 





0 01 02 03 04 05 06 07 

















(c) 


主 成 分 分 类 与 SIMCA 方法 分 类 不 同 特征 示意 图 


(a) 一 个 二 维 数 扫 








(交叉 点 为 一 


ERIS TA TRE: Cb) 一般 主 成 分 分 析 的 结 呈 


长 ， 星 点 为 一 类 ) 
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(c SIMCA 方法 分 类 结果 
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下 面 将 通过 一 个 环境 化 学 的 实例 来 进一步 解释 SIMCA 方法 进行 有 监督 模式 识别 分 析 中 
的 一 些 基 本 概念 和 计算 过 程 中 的 基本 步骤。 表 7-19 给 出 了 一 个 以 贻 贝 为 环境 污染 指标 的 生 
物化 学 数据 [5 。 该 数据 包括 从 17 个 不 同 采样 点 获取 的 从 贻 贝 组 织 中 提取 的 五 个 化 学 组 分 ， 
前 九 个 样本 是 从 被 认为 未 污染 的 地 区 采 得 ， 而 后 八 个 样本 则 是 从 不 同 程度 污染 的 海港 地 区 
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由 17 个 不 同 采样 点 获取 的 从 贻 贝 组 织 中 提取 的 5 个 化 学 组 分 数据 

















样本 变量 1 2 3 4 5 

I 55. 00 558. 00 80. 00 60. 00 344. 00 

-2 56. 00 439. 00 15. 00 52. 00 632. 00 
1-3 56.00 536. 00 97. 00 50. 00 512. 00 

-4 74.00 580. 00 22. 00 60. 00 720. 00 
1-5 67.00 670. 00 98. 00 78. 00 514. 00 

-6 70.00 632. 00 29. 00 53. 00 816. 00 

M 52. 00 618. 00 80. 00 85. 00 377. 00 
1-8 69. 00 684. 00 11. 00 74. 00 576. 00 

-9 240. 00 467. 00 225. 00 56. 00 410. 00 
2-1 328. 00 548. 00 209. 00 40. 00 548. 00 
2-2 163. 00 343. 00 54. 00 32. 00 304. 00 
2-3 300. 00 436. 00 167. 00 35. 00 352. 00 
2-4 277. 00 450. 00 244. 00 59. 00 442. 00 
2-5 251. 00 415. 00 64. 00 34. 00 335. 00 
2-6 190. 00 340. 00 16. 00 21. 00 235. 00 
2-7 377. 00 296. 00 78. 00 32. 00 230. 00 
2-8 265. 00 500. 00 255. 00 54. 00 440. 00 




















图 7-22 示 出 了 这 17 个 不 同样 本 所 含 变量 3 和 变量 4 的 结构 图 。 通 过 观察 ， 可 以 看 出 如 


果 采 用 欧 氏 距离 很 难 找到 该 两 类 样本 的 内 在 关系 。 比 如 ， 相 

















本 1-7 (o) 与 样本 1-6 (o) 的 欧 








氏 距 离 将 大 于 样本 1-6 (e) 与 样本 2-2 (0 的 欧 氏 距离 。 从 图 7-22 可 以 看 出 ,污染 区 采 得 











定义 此 类 样本 。 
采用 五 个 变量 的 主 成 分 投影 





属于 由 一 个 主因 子 决定 其 变化 的 数据 类 型 
SIMCA 方法 分 别 建 两 个 只 含 一 个 主 成 分 上 























下 面 再 举 一 例 说 明 SIMCA 用 于 光谱 数据 解析 的 情况 。 欲 以 8C NMR 谱 数据 来 判别 降 

















样本 实际 可 能 就 是 由 一 个 主因 子 决定 其 变化 的 类 型 数据 ， 如 采用 一 个 主 成 分 模型 将 可 很 好 地 


图 示 于 图 7-23。 从 图 7-23 可 清楚 看 出 ， 这 两 类 样本 的 确 都 
。 除 样本 1-9 © 之 外 ， 这 两 类 样本 可 很 好 地 采用 
类 模型 。 


这 样 ， 任 何 一 个 新 样本 都 可 由 这 两 个 仅 
含 一 个 主 成 分 的 模型 通过 前 述 计 算 过 程 来 进行 样本 归属 的 计算 了 。 

















冰片 烷 的 结构 ， 这 类 化 合 物 有 内 、 外 两 种 结构 ， 能 否 利用 SC NMR 谱 进 行 这 种 判别 ? 训练 


集 由 2 位 取代 的 降 冰 片 烷 组 成 : 
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环境 污染 指标 生物 贻 贝 数据 中 变量 3 和 变量 4 的 数据 结构 图 
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环境 污染 指标 生物 贻 贝 数据 的 5 个 变量 的 主 成 分 投影 
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用 降 冰 片 烷 的 Ci — Cz 碳 原子 3C 核磁 共振 谱 化 学 位 移 A6 TES E. A0 是 该 化 合 物 与 未 取 
代 降 冰片 烷 X. =H) 的 位 移 之 差 。 本 例 中 共有 15 个 样本 (n —150. 7 个 参量 (d=7), 2 
个 类 (=2) 。 先 对 原始 数据 进行 均值 中 心 化 预 处 理 ， 然 后 进行 无 监督 的 投影 判别 ， 可 知 两 
类 均 可 用 一 个 主 成 分 模型 表述 (A = 二 1)， 说 明 本 例 情况 较为 简单 。 根 据 特征 参量 对 两 类 的 判 
别 能 力 ， 对 特征 参量 进行 了 选择 ， 发 现 只 需 保留 Ca, Ce, Cr 的 化 学 位 移 A8， 删 去 其 他 参 
量 ， 对 余下 的 特征 参量 重新 计算 得 tas valio AMIRI s: —eie;/(d —AO M se —s's/On — 
A — D 对 诸 样本 和 不 同 的 类 分 别 计算 样本 残余 标准 偏差 ;; 和 类 的 均值 标准 偏差 ;. ， 太 检验 
证 明 ， 训 练 集 的 这 些 已 知 样本 无 不 正常 情况 。 用 SIMCA 法 对 未 进入 训练 集 的 降 冰 片 烷 试 样 
进行 分 类 ， 能 得 到 正确 分 类 结果 ， 甚 至 某 些 结构 与 降 冰 片 烷 相似 的 化 合 物 也 能 用 此 法 分 类 ， 
详 见 文献 [47]. 


三 、 基 于 偏 最 小 二 乘 的 投影 判别 法 


【基本 思路 】 

如 前 所 述 ， 偏 最 小 二 乘法 本 质 上 是 一 种 基于 特征 变量 的 回归 方法 ， 在 多 元 校正 中 得 到 了 
广泛 的 应 用 。 偏 最 小 二 乘法 与 主 成 分 分 析 的 不 同 之 点 在 于 它 不 但 对 量 测 和 矩阵 XX 进行 正 交 分 
解 ， 而 且 在 分 解 X 的 同时 对 响应 和 矩 阵 也 进行 正 交 分 解 ， 为 一 同时 进行 分 解 的 特征 变量 回归 
法 。 如 果 将 模式 识别 中 已 知 类 别 的 响应 变量 设 为 0 或 1 (对 两 类 模型 而 言 );， 或 其 他 整数 ， 
如 1、2、3… (对 多 类 模型 而 言 );， 则 偏 最 小 二 乘法 也 可 用 于 模式 识别 。 特 别 地 ， 因 偏 最 小 
二 乘法 也 是 一 个 特征 变量 法 ， 所 以 ， 它 也 可 同时 用 于 特征 投影 以 得 到 投影 图 ， 从 而 将 高 维 空 
间 的 样本 点 投影 到 低 维 空间 进行 人 眼 判 别 。 由 于 PLS 可 同时 对 样本 数据 矩阵 立 和 响应 变量 
进行 分 解 ， 并 力图 建立 它们 之 间 的 回归 关系 ， 所 得 投影 图 可 得 到 更 好 的 分 类 效果 。 

偏 最 小 二 乘法 已 经 应 用 于 很 多 不 同 的 研究 领域 ， 在 化 学 模式 识别 中 也 得 到 了 相当 广泛 的 
应 用 。 将 偏 最 小 二 乘法 用 于 有 机 合成 、QSAR 和 化 学 化 工 过 程 的 优化 是 化 学 计量 学 研究 的 
一 个 重要 内 容 。 

【几何 意义 及 其 应 用 讨论 了 

由 于 用 于 化 学 模式 识别 的 偏 最 小 二 乘法 的 迭代 过 程 也 是 通过 由 H. Wold 提出 的 非 线性 
迭代 偏 最 小 二 乘 算法 而 完成 的 。 在 前 一 章 已 进行 过 详细 讨论 ， 所 以 在 此 从 略 ， 只 从 几何 意义 
方面 进行 一 些 必要 的 讨论 。PLS 分 解 具有 下 述 形式 : 


X —USV' 2U* S^ VU --Ex 2T" VU +Ex 






















































































































































































Y —PGQ' -P* G* QU -Ey -R* Q" +Ey 


这 里 ， 由 样本 量 测 和 矩阵 X 分 解 得 到 的 矩阵 T* 以 及 由 响应 矩阵 Y 分 解 得 到 的 矩阵 R* ,代表 
了 除去 大 部 分 噪声 后 的 变量 和 响应 的 信息 。 经 过 这 样 的 分 解 ， 可 以 得 到 两 个 分 解 的 矩阵 T * 
和 R*， 继 而 将 这 两 个 分 解 的 投影 变量 经 回归 联系 起 来 而 不 是 原来 的 变量 矩阵 半 和 响应 矩阵 
Y。 首 先是 变量 矩阵 的 一 个 目标 ， 即 它 的 一 个 行 矢 量 xi BEA vi E, Ata. AM, 
应 矩阵 的 一 个 目标 ， 即 它 的 一 个 行 矢 量 y;， 投 影 到 gq? E HA ra AMX taf ra 进行 
回归 ， 这 样 的 关系 在 PLS 中 称 为 内 相关 。 

偏 最 小 二 乘法 的 一 个 优点 就 是 它 可 以 在 两 个 矩阵 之 间 建 立定 量 关系 ， 这 就 使 具有 多 个 量 
测 响应 或 活性 矢量 y; Gj —1. 2. t. m) 的 预测 成 为 可 能 。 设 有 化 学 量 测 、 结 构 信 息 或 试验 
变量 矩阵 ， 即 X 和 抢 阵 ， 同 时 还 有 多 个 类 别 响应 或 活性 矢量 yj (jl. 2. t. m) 所 构成 的 响 
MEE YOY =Lyis y2 s YmD ， 就 可 以 用 PLS 来 建立 这 两 个 矩阵 之 间 的 定量 关系 。 比 
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如 ， 一 个 化 学 反应 可 在 一 系列 溶剂 中 进行 ， 每 个 溶剂 都 可 用 几 个 特征 变量 表示 ， 这 就 构成 了 
变量 和 矩阵 全 ， 用 不 同 的 溶剂 可 以 得 到 不 同 的 主要 产物 的 产 率 、 其 余 副 产物 的 产 率 等 ， 这 就 构 
成 了 响应 矩阵 Y， 借 PLS 就 可 建立 它们 之 间 的 定量 关系 ， 从 而 预测 新 的 溶剂 可 能 得 到 的 结 
果 。PLS 方法 的 第 二 个 优点 就 是 它 可 以 运用 不 同 的 投影 图 来 评价 所 得 结果 。 对 于 大 多 数 情 
况 ， 对 这 些 图 的 直观 解释 就 可 足够 理解 不 同 的 变量 与 响应 之 间 的 关系 了 。 

PLS 用 于 有 机 合成 的 例子 一 一 胺 化 反应 的 副 产 物 的 抑制 : 在 这 个 例子 中 ， 将 讨论 怎样 
应 用 PLS 方 法， 在 这 个 反应 中 找到 调整 哪 一 个 变量 就 可 以 提高 主要 产物 的 产 率 而 又 能 同时 
抑制 副 产 物 。 

所 研究 的 反应 是 用 3,3- 二 甲 基 -2- 丁 酮 来 合成 吗 啉 烯 胺 。 本 反应 的 副 产 物 是 3,3- 二 甲 基 - 
2- 丁 酮 的 自 缩合 : 
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WAIE BEHEAB PE- 3: 32 P7 A I PA 2] B 77 33 Ir R AS XR E 20 HE PLS 方法 的 X 和 矩阵 
和 YY HEE, CARIFE 7-20。 注 意 到 , fk X EERE T x 变量 的 平方 项 和 交叉 
项 。 在 做 PLS 之 前 ， 都 对 数据 进行 了 预 处 理 ， 即 自 标 度 化 。 


试验 设计 和 矩阵 与 响应 矩阵 ? 


















































变 E 响 应 
试验 序号 

Xl X2 X3 Ji Ja 
1 = = = 41.6 14.6 
2 zii = 45.1 6.7 
3 =] —1 51.7 26.2 
4 = 64:7 17.7 
5 a =i 47.8 11.9 
6 = 1 57.1 Ys 
7 -—1 1 63.0 26.1 
8 = 1 77.8 11.0 
9 1. 414 0 0 66.7 8.1 
10 —]1. 414 0 0 49. 5 22.2 
1 0 1. 414 0 70.4 18.9 
12 0 —]1. 414 0 43.9 8.0 
13 0 0 1.414 66.4 9.8 
14 0 0 —]1.414 52.4 17.3 
5 0 0 0 56.5 13.8 
16 0 0 0 60.0 12.3 
17 0 0 0 58.6 12.6 
8 0 0 0 57.2 13.6 
































zi 一 吗 啉 的 用 量 ; vo AEE zs; 一 反应 温度 ; yi kA R A ys 一 副 产 物 的 百 分 产 率 ,% 


经 PLS 分 析 ， 借 交叉 校 验 法 ， 发 现 有 两 个 主 成 分 是 显著 的 ， 它 们 代表 了 和 矩阵 96.296 
的 方差 ， 第 一 个 PLS 主 成 分 包括 了 YY EE 47.4% 的 方差 .而 第 二 个 PLS 主 成 分 代表 了 
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48. 8% 的 方差 。 
首先 ， 来 看 看 怎样 从 数学 上 来 解释 PLS 分 析 所 得 到 的 结果 ，X 矩阵 分 解 出 来 的 V'* 为 : 





ye [0.1814 —0. 9711 —0. 1317 —0. 0622 0. 0315 —0. 2267 0.0326 —0.0149 0.0057 
| 0. 7863 0. 1249 0.4986 | —0.1648 —0. 1241 —0.0728 0.2199 0.0951 0.1111 





ge —| 9 $69? —0. 7480 
0.7600 一 0. 6499 


这 样 , 和 和 矩阵 的 得 分 矢量 就 可 依据 下 式 算 出 
£10. 1814x; —0. 9711x, —0. 1317x, —0. 0622x? +0. 0315x2 
— 0. 2267x? +0. 0326x,5 —0. 0149x 4 +0. 0057x 25 


t, =0. 7863x; +0. 1249x, +0. 4986x; —0. 1648x? —0. 1241x 





—0. 0728x} +0. 2199x35 +0. 0951x45 +0. 1111x323 


rı =— 0. 6637y; —0. 7480y» 
Y»? 一 0. 7600y; 一 0. 6499y, 
两 个 得 分 矢量 间 的 内 部 相关 可 表示 为 : 


rı =0. 9751t; Fe 





r, =0. 8802t; +e 
如 果 采 用 和 矩阵 的 表达 方式 ， 则 有 

R*=BT* +E (7-97) 
IH, B 为 一 对 角 和 矩阵 : 








0. 9751 0 
B= 
0 0. 8802 


注意 到 PLS 的 整个 数学 模型 可 表示 如 下 : 














X—USV' —U* S* V* +Ex=T*V' Ex 
Y—PGQ'—P*' G^ Q^ -Ey -R^ OU Ey 
R* —BT^ +E 
得 分 矢量 x; 与 1; 的 内 部 相关 图 示 于 图 7-24. 
M Y JBEEBS a EBEEQ'' ， 可 容易 地 计算 出 Y 矩阵 与 得 分 矩阵 的 关系 : 
yı =— 0. 6499r; 4-0. 7600r; (7-98a) 
ya — —0. 7480r; —0. 6637r; (7-98b) 
从 式 (7-98a), 3X 〈7-98b) 可 以 看 出 ,为 了 增加 主要 产物 ( 烯 胺 ) 的 产 率 ， 即 y. dA 
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(a) (b) 
得 分 矢量 x, 与 t; 的 内 部 相关 图 








验 条 件 的 调整 应 该 是 r; 朝 负 方向 变化 ，r。 朝 正方 向 变化 ;而 为 了 减少 副 产 物 的 产 率 ， 即 
y?， 试 验 条 件 的 调整 应 该 是 r; or. 都 朝 正 方向 变化 。 这 样 ， 对 于 ri 来 说 ， 增 加 主要 产物 
或 减少 副 产 物 发 生 了 了 矛盾。 以 下 将 可 以 看 到 ， 这 一 矛盾 是 可 以 解决 的 。 
由 于 x; 5t; 是 平行 的 ， 所 以 可 以 通过 调节 1; 来 代替 r;。 从 XX 和 矩阵 的 荷载 阵 Q'* 可 以 看 
出 ， 主要 与 x， 负 相关 〈 四 氯 化 钛 的 用 量 ) 。 正 如 ri 、 的 减少 将 提高 y1 ， 这 就 意味 着 提 
高 四 氧化 钛 的 用 量 将 提高 主要 产物 y, 的 产 率 ， 但 值得 注意 的 是 ， 四 氧化 钛 用 量 的 提高 也 将 
冒 提高 副 产 物产 率 的 风险 ， 这 是 因为 1 的 减少 同样 会 提高 yi 对 于 第 二 个 PLS 主 成 分 ts. 
它 主 要 与 x。 和 xs 正 相关 ， 这 就 说 明正 像 r,，t; 的 增加 ， 也 即 xi 〈 吗 啉 的 用 量 ) 和 x，( 反 
应 温度 ) 的 增加 将 有 利于 提高 主要 产物 的 产 率 。 以 上 结论 与 用 响应 面 方法 所 得 结论 是 一 
致 的 。 

男 一 方面 ，PLS 方法 还 可 通过 投影 图 来 分 析 ， 而 且 它 的 分 析 比 起 上 述 的 数值 分 析 方 法 
来 得 容易 ， 来 得 直观 。 因 为 荷载 投影 图 是 反映 变量 之 间 的 关系 ， 所 以 只 需 将 qi 对 qs 及 vi 
对 vy, 同时 作 图 (参见 图 7-25)， 就 可 以 得 到 类 似 结论 。 






























































PLS, 








EPAD PLS 荷载 投影 图 


1 一 y1; 2—yss 3—Zz1; 4 一 zj) 5—x35 6 一 2 7 一 z 8 一 Z3 9—2x,55 10—2,55 11 一 zs 








从 图 7-25 可 以 看 出 ，1 和 2 Cy, My) 的 变化 主要 由 4 即 x。 所 决定 (主要 反映 在 
PLS: 上 )，3 和 5 (x, Mx) 主要 控制 了 PLSs 的 变化 ， 因 为 1 即 y1 处 于 正方 向 ， 故 3 和 5 
BB x, 和 xs 的 提高 可 提高 y1 产 率 ， 而 2 即 y， 处 于 负 方 向 ， 故 3 和 5 即 xi 和 xs 的 提高 可 降 
低 y% 产 率 ， 这 些 结论 与 数值 分 析 所 得 的 结论 是 一 致 的 。 从 这 可 以 看 出 ，PLS 投影 图 的 分 析 
比 数值 分 析 更 容易 更 直观 。 

另 一 个 例子 是 基于 Willgerodt-Kindler 反应 ， 它 同样 说 明了 用 PLS 也 可 以 采用 对 离散 变 
化 进行 逐步 分 析 。 早 期 的 研究 结果 表明 ， 对 于 强 吸 电子 基 团 ， 如 NO* 、CN 等 不 适用 ， 而 
且 ， 试 验 只 包括 电子 给 予 体 、 烷 基 和 卤素 取代 基 。 
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最 初 是 选用 了 5 个 对 位 取代 的 乙酰 茶 (Y-—H,. Me, Cl. MeO, MeN) 组 成 了 反应 空 
间 的 取代 基 轴 。 最 优 产 率 的 试验 条 件 一 般 都 是 由 响应 面 方法 求 出 。 试 验 结果 示 于 表 7-21。 为 
表征 化 合 物 ， 一 般 的 取代 参数 等 都 收录 于 表 7-21, 


EJEA willgerodt-Kindler 反应 的 最 优 条 件 ? 























































































































试验 序号 试验 最 优 条 件 JE 率 
方 法 
及 取代 基 x X, X3 预测 值 观察 值 
1 Me 9.6 8.4 33 RSM 96.0 96 
2 MeO 9.3 8.9 30 RSM 98.2 100 
3 H 1.5 10.3 123 RSM 90.8 94 
4 Cl 9.7 9.9 119 RSM 95.0 100 
5 Me: N 8.8 8.3 22 RSM 89.0 89 
6 F Teg 11.0 12 PLS 89.0 = 
7 F 8.3 10.6 116 RSM 94.0 93 
8 Br 10.4 9.3 123 PLS 98.4 — 
9 Br 10.2 9.5 21 RSM 95.0 95 
10 MeS 10.4 8.4 24 PLS 97.0 95 
COD zi 一 硫 / 酮 用 量 的 比值 (mol/mol); z, H3 Nk/ B] Hi Sti] EE f. (mol/mol); xz; 一 反应 温度 。 实 验 的 产 率 是 由 气相 
色谱 直接 测 出 。 
首先 ， 使 用 表 7-21 中 所 列 的 前 5 个 化 合 物 的 数据 作为 Y 和 矩阵， 用 所 对 应 的 表 7-22 中 所 








列 的 5 个 化 合 物 的 结构 参数 数据 作为 X 矩阵 ,来 建立 PLS 的 定量 模型 ， 对 以 氟 为 取代 基 的 
情况 来 作 预 测 ， 所 得 结果 列 于 表 7-21 的 第 六 行 ， 第 七 行列 出 了 用 响应 面 所 得 实验 结果 用 以 
对 照 。 然 后 ， 将 氟 为 取代 基 的 数据 也 包括 进来 ， 对 省 取代 的 情况 进行 预测 ， 所 得 结果 列 于 第 
八 行 ， 第 九 行列 出 了 相应 的 对 照 数据 ， 从 这 些 结果 看 来 ，PLS 方法 的 预测 效果 是 很 不 错 的 。 
在 这 里 特别 值得 提出 来 的 是 ， 把 省 取代 的 数据 也 包括 进来 ， 对 甲 硫 基 取代 进行 了 预测 ， 同 时 
就 按 此 条 件 做 了 试验 ， 所 得 结果 列 于 表 7-21 的 第 十 行 ， 从 这 一 结果 看 来 ， 用 PLS 预测 的 结 
果 果 然 与 实验 结果 十 分 吻合 (预测 98%， 实 验 98%), WA PLS 方法 是 一 种 很 好 的 定量 建 模 法 。 


取代 的 结构 参数 








































































































取代 基 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
Me 0.01 —0.17 —0.04 —0.13 —1.24 0 0.52 3.0 .52 . 90 .90 2.04 5.65 0. 56 
MeO| 0.3 —0.27 0.26 一 0.51 —0.55 —0.23 0.36 3.98 1.35 . 90 .90 2.78 7.87 一 0.02 
H 0 0 0 0 0 0.32 0 2. 06 00 00 00 1.00 1.03 0 
Cl 0.47 0.23 0.41 一 0.15 —0.97 —0.56 0.55 3.52 80 80 80 1.80 6.03 0. 71 
MeN| 一 一 0.83 0.10 —0.92 0.48 8.53 50 2.56 2.80 2.80 15.55 0. 18 

F 0.54 0.06 0.43 —0.34 —0.46 —0.14 0.27 2.65 1.35 .35 .35 1.35 0.92 0. 14 
Br 0.47 0.23 0.44 —0.17 —1.16 —0.84 0.65 3.83 1.95 . 95 .95 1.95 8.88 0. 86 

MeS| 0.3 0 0.2 —0.18 —1.07 —0.75 0.64 4.3 1.70 1.90 1.90 3.26 13.82 0. 61 

^— Olo CTaft 诱导 参数 )，2 一 "，( 对 位 取代 基 的 Hammett £30; 3—F; 4 一 R (Swain-Lupton 取代 参数 ); 5 一 

Es; 6—E,c (Taft 立体 参数 ); 7—v. (W t1); 8 一 L; 9 一 B1; 10—Bz; 11—Bs; 12—B, (Verloop 立体 参数 ); 





13—MR (分 子 折射 率 ) ，14 一 r (Hansch 亲 脂 参数 )。 
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如 前 所 述 ， 偏 最 小 二 乘法 本 质 上 是 一 种 基于 特征 变量 的 回归 方法 ， 在 多 元 校正 中 得 到 了 
广泛 的 应 用 。 偏 最 小 二 法 乘 与 主 成 分 分 析 的 不 同 之 点 在 于 它 不 但 对 量 测 矩 阵 X 进行 正 交 分 
解 ， 而 且 在 分 解 X 的 同时 对 响应 矩阵 也 进行 正 交 分 解 ， 为 一 同时 进行 分 解 的 特征 变量 回归 
法 。 如 果 将 模式 识别 中 已 知 类 别 的 响应 变量 设 为 0 或 1 (对 两 类 模型 而 言 );， 或 其 他 整数 ， 
All. 2, 3-- (对 多 类 模型 而 言 );， 则 偏 最 小 二 乘法 也 可 用 于 模式 识别 。 特 别 地 ， 因 偏 最 小 
二 乘法 也 是 一 个 特征 变量 法 ， 所 以 ， 它 也 可 同时 用 于 特征 投影 以 得 到 投影 图 ， 从 而 将 高 维 空 
间 的 样本 点 投影 到 低 维 空间 进行 人 眼 判 别 。 由 于 PLS 可 同时 对 样本 数据 矩阵 立 和 响应 变量 
进行 分 解 ， 并 力图 建立 它们 之 间 的 回归 关系 ， 所 得 投影 图 可 得 到 更 好 的 分 类 效果 。 偏 最 小 二 
乘法 的 整个 计算 过 程 可 由 下 面 几 个 式 子 表示 































































































Wa—X'y 
t,— Xw, 
Qa —y'ta 
De 一 和 ta 


所 以 ， 主 成 分 分 析 中 能 得 到 的 得 分 矢量 和 载荷 矢量 ， 即 t 和 p， 也 能 在 PLS 的 计算 过 程 中 得 
到 。 这 就 说 明 偏 最 小 二 乘法 也 可 像 主 成 分 分 析 那 样 进行 特征 投影 。 偏 最 小 二 乘法 与 主 成 分 分 
析 的 不 同 就 在 于 主 成 分 分 析 是 无 监督 的 模式 识别 方法 ， 而 偏 最 小 二 乘法 是 一 种 有 监督 的 模式 
识别 方法 。 

对 于 一 些 含 有 共 线 性 特性 或 是 变量 数 远 大 于 样本 数 的 数据 ， 可 以 采用 主 成 分 分 析 方 法 先 
对 数据 进行 降 维 处 理 ， 继 而 通过 得 分 矢量 进行 样本 的 判别 分 析 。 当 然 ， 因 主 成 分 分 析 并 不 像 
高 最 小 二 乘法 那样 ， 将 判别 作为 其 最 终 目 标 。 也 因为 此 ， 这 一 点 近年 来 成 为 一 个 在 化 学 计量 
学 中 广泛 讨论 的 主题 。 

对 于 主 成 分 分 析 并 不 是 进行 判别 分 析 的 最 佳 选 择 这 一 点 应 该 不 令 人 感到 惊奇 ， 因 为 它 关 
注 的 的 确 只 是 如 何 识别 数据 的 整体 方差 ， 而 非 如 何 区 分 所 谓 的 “类 内 ”或 “类 间 ” 方 差 。 采 
用 偏 最 小 二 乘法 来 进行 判别 分 析 的 动机 容易 理解 ， 实 因 这 样 做 亦 可 同样 起 到 对 原始 模式 空间 
降 维 的 作用 。 偏 最 小 二 乘法 的 特征 变量 是 通过 在 不 断 地 迭代 中 ， 同 时 吸取 响应 变量 CY- 
block) 和 量 测 变 量 (X-block〉 的 相关 信息 所 得 。 所 以 ， 一 方面 它 像 主 成 分 分 析 ， 每 个 偏 最 
小 二 乘法 的 特征 变量 是 由 原始 量 测 变量 线性 组 合 而 成 ， 但 同时 它 又 不 像 主 成 分 分 析 ， 这 些 偏 
最 小 二 乘法 的 特征 变量 更 反映 了 与 相应 变量 的 相关 关系 。 正 是 因为 这 种 更 关注 相应 变量 的 特 
征 ， 使 得 由 原始 量 测 变量 线性 组 合 而 成 的 偏 最 小 二 乘法 的 特征 变量 吸取 了 更 多 的 相应 变量 的 
信息 和 特征 ， 从 而 得 到 了 更 好 的 分 类 效果 。 也 正 是 因为 这 样 ， 偏 最 小 二 乘法 的 特征 投影 也 将 
付出 引入 “模型 过 拟 合 ”风险 的 代价 ， 有 关 此 点 ， 读 者 可 参阅 文献 [48j。 当 然 ， 偏 最 小 二 
乘法 的 得 分 变量 所 包含 的 有 关 原 始 量 测 变量 (X-block) 的 相关 方差 信息 ， 相 比 主 成 分 分 析 
亦 将 相应 降低 。 
































































































































第 七 节 基于 机 如 学 习 的 分 类 回归 方法 


机 咒 学 习 和 数据 发 掘 是 目前 计算 机 科学 与 统计 学 研究 中 的 一 个 热点 领域 。 由 于 近年 来 计 
算 机 和 信息 科学 的 飞速 发 展 ， 使 得 数据 的 产生 、 存 储 、 转 换 和 传递 变 得 越 来 越 方便 ， 从 而 更 
进一步 促进 了 机 器 学 习 和 数据 发 掘 研究 的 发 展 。 在 这 一 领域 也 出 现 了 不 少 新 算法 ， 也 为 进行 
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复杂 体系 仪器 分 析 的 数据 处 理 提 供 了 不 少 的 新 思路 和 新 方法 。 特 别 是 在 21 世纪 系统 生物 学 
的 提出 ， 各 种 组 学 ， 如 基因 组 学 、 和 蛋白 组 学 、 转 录 组 学 和 代谢 组 学 等 的 提出 ， 为 这些 方法 的 
实际 运用 提供 了 新 机 遇 ， 也 使 得 复杂 体系 仪器 分 析 的 数据 分 析 变 得 越 来 越 重要 。 本 节 将 要 介 
绍 的 这 些 方 法 大 都 来 自 机 器 学 习 研 究 领 域 ， 是 一 些 较 新 的 方法 ,希望 读者 对 它们 的 出 现 能 给 
予 足够 的 重视 ， 充 分 认识 它们 的 重要 性 ， 这 将 对 解决 复杂 体系 仪器 分 析 的 数据 分 析 的 难题 提 
供 新 思路 和 新 方法 。 这 些 方法 一 般 都 可 同时 用 于 分 类 和 回归 。 所 以 ， 对 于 第 六 章 所 讨论 的 广 
义 灰色 分 析 体 系 的 回归 建 模 问题 ， 它 们 也 同时 可 用 。 


一 、 支 持 向 量 机 


支持 向 量 机 (support vector machines, SVM) 是 Vapnik 等 :3.50] 基于 统计 学 习 理 论 
(statistical learning theory. SLT) 提出 的 一 种 新 的 基于 核 函 数 的 机 絮 学 习 算法 ， 主 要 用 于 
模式 识别 。 此 前 的 大 多 数 机 器 学 习 算 法 采用 经 验 风险 最 小 化 (empirical risk minimization. 
ERM) 准则 ， 要 得 到 一 个 具有 好 的 泛 化 能 力 的 模型 ， 往 往 需要 大 量 的 样本 ， 若 样本 量 小 ， 
则 容易 出 现 过 拟 合 ， 降 低 了 模型 的 预测 能 力 。 这 里 介绍 的 支持 向 量 机 则 是 非常 适合 小 样本 学 
习 的 优秀 算法 ， 它 以 核 函 数 为 基础 ， 以 结构 风险 最 小 化 (structural risk minimization. 
SRM) 为 建 模 目标 ， 采 用 优化 算法 训练 得 到 一 个 具有 最 大 边界 (margin) 的 模型 ， 提 高 了 
模型 的 泛 化 能 力 。 其 算法 的 基本 思想 是 : 由利 用 选 定 的 核 函 数 将 训练 数据 集 从 输入 空间 非 线 
性 地 映射 到 一 个 高 维特 征 空间 (feature space); @@ 在 此 特征 空间 中 构造 线性 判别 函数 ， 并 
定义 此 判别 函数 的 边界 ; @ 采 用 优化 算法 ， 如 标准 二 次 规划 ， 计 算 具 有 最 大 边界 的 线性 判别 
函数 ， 即 支持 向 量 分 类 机 (support vector classification machines，SVC)。 值 得 指出 的 是 ， 
SVM 模型 是 唯一 的 。 下 面 对 SVM 原理 作 简要 介绍 。 

前 述 讨论 中 指出 ， 支 持 疝 量 机 首先 是 利用 选 定 的 核子 数 将 训练 数据 集 从 输入 空间 非 线 性 
地 映射 到 一 个 高 维特 征 空间 ， 这 的 确 为 支持 向 量 机 的 一 个 显著 优点 ， 称 为 维 数 优势 
(dimensional superiority) 。 为 更 形象 地 说 明文 持 向 量 机 维 数 优 势 的 特点 ， 让 我 们 先 看 一 个 简 
单 的 例子 (参见 图 7-26) 。 在 该 图 的 GO 部 分 显示 了 一 个 二 维 空间 中 线性 不 可 分 的 情形 。 一 
般 说 来 ， 对 于 这 样 的 情况 ， 是 需要 采用 一 个 复杂 的 非 线性 判别 方法 来 求解 ， 如 采用 人 工 神经 
网 络 ， 但 那 需要 复杂 的 计算 与 参数 优化 ， 而 且 还 是 消耗 时 间 和 不 易 处 理 之 事 。 更 为 值得 提出 
的 是 ， 非 线性 模型 通常 还 是 不 稳健 的 。 对 此 ， 另 一 个 解决 方法 可 以 通过 简单 增加 维 数 来 进 
行 。 对 此 例 ， 就 可 以 通过 定义 第 三 维 ， 即 z); =z25 4x ， 得 到 zz;,，， 这 样 原先 在 二 维 空间 
WE i NER, BMx [ras cold MERTES HWER, B xS [ras xi oral 
从 而 完成 了 非 线性 映射 的 过 程 ， 亦 即 完成 从 原始 的 二 维 空间 向 三 维 空间 的 映射 。 图 7-26 就 
示 出 了 经 此 特征 映射 后 ， 由 原先 线性 不 可 分 而 在 高 维特 征 空间 可 得 到 线性 分 开 的 情况 。 从 图 
可 以 清楚 看 出 ， 原 先 在 低 维 空间 线性 不 可 分 的 样本 在 高 维 空间 可 得 到 线性 分 开 的 效果 。 这 一 
过 程 就 是 支持 向 量 机 构建 中 的 特征 映射 过 程 ， 只 是 在 支持 向 量 机 的 算法 中 ， 此 过 程 是 通过 核 
函数 来 实现 的 。 

接 下 来 ， 将 介绍 文 持 向 量 机 中 另 一 个 重要 概念 ， 即 边界 这 个 概念 。 在 图 7-27 中 ， 可 明 
显 看 出 ， 能 够 将 所 示 两 类 样本 完全 分 开 的 模型 不 是 唯一 的 。 在 此 情况 下 ， 我 们 很 自然 会 问 : 
“模型 不 唯一 ， 那 么 哪 一 个 模型 最 好 呢 ?” 和 凭 直觉， 我 们 会 认为 处 在 两 类 样本 “最 中 间 ” 的 模 
型 应 该 是 最 好 的 。“ 最 中 间 ” 应 该 怎么 样 从 数学 上 定义 呢 ? 如 图 7-27 所 示 ， 定 义 与 任意 模型 
( 实 线 ) 平行 的 两 条 虚线 〈 必 须 位 于 两 类 样本 的 边界 上 ) 间 的 距离 为 模型 的 边界 。 支 持 和 癌 量 
机 其 实 就 是 具有 最 大 边界 的 线性 分 类 模型 。 下 面 就 以 样本 线性 可 分 的 情况 ,介绍 支持 向 量 机 
的 基本 算法 。 
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(a) (b) 
在 低 维 空间 线性 不 可 分 的 样本 (a) 在 高 维特 征 
空间 可 得 到 线性 分 开 的 效果 (b) 的 一 个 实例 
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支持 向 量 机 模型 示意 图 





在 线性 可 分 情况 下 ， 图 7-27 中 的 任 一 分 类 模型 必须 满足 如 下 两 个 条 件 : 


f(x;:)=w'x; +b Èl, y; =l 





fx;)=w'ix; +b S<- 1, y;——1 





(7-992) 
(7-99b) 
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AF, w 为 标准 化 的 模型 权 向 量 ; b 为 标准 化 后 的 截 距 。 式 (7-99a) 和 式 (7-99b) 可 


以 合并 为 
(w'x; 十 0)y; Im il 
因此 ， 此 线性 分 类 模型 的 边界 采用 如 下 公式 计算 
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如 何 寻 找 具 有 最 大 边界 的 分 类 模型 呢 ? 首先 将 此 问题 严格 表述 成 带 约束 的 优化 问题 s 





margin 一 2 (7-100) 








2 
w | 





maximize: I 
subject to: (wtx; +b) y;Zl 
利用 拉 格 郎 日 乘 子 Mut multiplier) ik. E38 mæ n] EAE Eg d Nf F H BR BR 
TX. LOW. b, e ies Da: [y;w!x; 十 0) 一 1 
这 里 , a;(a; Z0) 就 是 拉 格 并 BAT. 分 别 对 w 和 2 求 一 阶 偏 导 并 令 其 导数 为 0: 


9L(w, b, a) à 
Ja w D yaxi =0 





L 2 a) x 
yiai —0 





很 明显 ， 可 以 得 到 : 





由 一 > yax; (7-101) 
OQ 一 了 Ci; (7-102) 


N 
然后 将 式 (7-101) 和 式 (7-102) 代入 到 工 (w ，20， UR nM 
中 ， 并 且 只 有 当 Dy; wx; 十 56) 一 1] 等 于 0 时 (这 些 点 为 边界 点 ),，a; 方 不 为 0， 于 是 可 得 


N 
Lw, b, D= De 5 y;yja;a xix; (7-103) 
i-l 


13 2-1 





很 明显 ， 式 (7-103) 为 关于 拉 格 朗 日 乘 子 的 凸 二 次 函数 ， 可 以 采用 标准 的 凸 二 次 规划 
算法 求解 。 需 要 注意 的 是 ， 只 有 少数 样本 的 拉 格 朗 日 乘 子 a; 之 0， 这 些 样本 就 是 所 谓 的 支持 
Hæ (A 7-27 中 处 于 虚线 上 的 样本 )， 大 部 分 样本 的 a; 均等 于 0， 这 就 是 SVM BUS i PE 
的 体现 ， 模 型 只 与 支持 向 量 有 关 。 根 据 二 次 优化 算法 得 到 拉 格 朗 日 乘 子 后 ，SVM 的 模型 可 
表示 为 




















N 
roo =u | Zvan n (7-104) 
i-—l 


式 中 , b 一 一 于 [maxy - a Of x ;) d- min, =; w'x;)] o 
引入 核 函 数 K(x;，x;) 的 支持 向 量 机 模型 的 一 般 形 式 为 : 























N 
fo) cun Dist, soe] (7-105) 
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有 关 支 持 向 量 机 如 何 进行 回归 分 析 ， 在 此 不 再 详 述 ， 有 兴趣 的 读者 可 参看 第 六 章 第 三 节 
五 (Z) 和 文献 [51]. 


二 、 分 类 回归 树 


“分 类 回归 树 ”(classification and regression tree, CART) 早期 被 称 为 “决策 树 ” 
(decision tree)， 决 策 树 的 自动 构建 可 以 追溯 到 Morgan 与 Sonquist 及 Morgan 与 Messenger 
的 社会 科学 人 研究。 在 统计 学 中 ， 开 山 之 作 当 归属 于 Breiman 和 Friedman 等 。 大 约 与 此 同时 ， 
决策 树 的 方法 也 在 各 个 领域 被 广泛 使 用 ， 如 机 器 学 习 、 工 程 学 等 。 近 年 来 ， 这 些 方 法 的 发 展 
越 来 越 集 中 于 机 需 学 习 领 域 ， 而 统计 学 方面 的 进展 则 较 少 。 下 面 将 主要 介绍 Breiman 提出 
的 最 为 常用 且 最 著名 的 分 类 回归 树 (CART) SEU, 

决策 树 实际 就 是 一 种 树 状 分 类 结构 模型 。 它 是 一 种 通过 变量 拆 分 建立 分 类 规则 ， 又 利用 
树 形 图 分 割 形成 概念 路 径 的 数据 分 析 技 术 。 决 策 树 的 基本 思想 由 两 个 关键 步骤 组 成 : 第 一 步 
对 特征 变量 空间 按 变 量 对 分 类 效果 影响 大 小 进行 变量 和 变量 值 选择 ; 第 二 步 用 选 出 的 变量 和 
变量 值 对 数据 进行 分 类 。 在 不 同 的 分 类 划分 中 进行 分 类 效果 和 模型 复杂 度 比 较 ， 从 而 确定 最 
合适 的 分 类 划分 。 图 7-28 给 出 了 一 个 决策 树 逐 步 辟 分 变量 进行 分 类 的 整个 过 程 。 决 策 树 主 
要 用 于 分 类 ， 也 可 以 用 于 回归 。 


































































































决策 树 逐 步 劈 分 变量 进行 分 类 的 整个 过 程 


先 考虑 一 个 假设 的 例子 。 假 定 对 许多 样本 中 的 每 一 个 测量 了 10 个 变量 z(1)，…， 
2(10) ， 把 这 些 样本 的 每 一 个 划 归 为 三 个 类 别 中 的 某 一 类 。 这 一 问题 的 一 种 可 能 的 决策 树 ， 
如 图 7-29 所 示 。 图 7-29 中 的 决策 树 可 以 被 用 来 进行 如 下 的 分 类 : 假设 有 某 个 样本 的 测量 数 
据 向 量 ， 其 中 (1) = 二 5.7, x(5) 二 1.4, x(6) 二 一 7.3， 在 第 一 次 分 化 时 ， 它 会 向 右 ， 第 二 次 
分 化 时 向 左 ， 第 三 次 时 向 右 ， 以 进入 类 1 终结 点 而 告终 。 图 7-29 中 决策 树 的 最 终 的 结 点 称 
为 终结 点 。 可 以 看 出 ， 这 个 树 的 使 用 和 理解 均 非 常 简单 尽管 总 共有 10 个 变量 ， 但 仅 有 几 个 
变量 在 各 次 分 化 中 使 用 ， 并 且 可 以 很 容易 看 出 这 几 个 变量 是 如 何 影 响 分 类 的 。 例 如 ， 树 最 左 
侧 的 终结 点 类 2 由 这 样 一些 样 本 说 明 ， 它 们 的 三 个 变量 COO CO 的 值 均 比 较 低 。 下 面 
考虑 回归 的 情况 。 再 一 次 假设 有 许多 包含 10 个 变量 的 样本 ， 需 要 预测 与 每 一 样本 有 关 的 某 
一 性 质 y。 这 一 问题 的 一 种 可 能 的 决策 树 如 图 7-30 所 示 。 除 了 终结 点 中 的 内 容 是 具体 的 数 
值 而 不 是 某 一 类 别 外 ， 图 7-30 中 的 分 类 回归 树 与 图 7-29 中 的 分 类 回归 树 非 常 相似 。 当 用 这 
一 分 类 回归 树 进 行 预测 时 ， 可 以 根据 某 一 样本 的 诸多 变量 值 决定 它 沿 树 的 走向 ， 最 终 到 达 终 
结 点 ， 该 样本 便 获 得 该 终结 点 对 应 的 y fü. 
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x(1)<5.45 





x(1)<7.05 





x(8)<0.7058 


分 类 回归 树 的 例子 (一 ) 


A x(1)<5.55 


[ACK(5)<2.8 A x(1)<6.15 


ZA x(1)<7.05 


/RX(1)<4.7 A\ x(3)<1.8302 LX (5)«3.6 
x(1)«4.95 
八 /XK x(6)<-2.199 [X x(8)«0.7058 
1 11.3333 
IN X(8)--0.1817 [A x(5)-2.95 JN x(2)«1.472 
25 2 3 
x(3)«0.1248 
/MKx(9)<25 ANX)«2.85 A 
2.125 3 25 
x(9)<2.8889 从 
2.5 2 2.7143 2.1667 5 


2 28 
分 类 回归 树 CART 例子 (二 ) 


下 面 介 绍 分 类 回归 树 的 生成 方法 。 分 类 回归 树 是 一 个 有 监督 的 学 习 算 法 ， 它 根据 对 “ 训 
练 集 ”数据 的 运算 生成 。 以 前 面 三 个 类 的 划分 为 例 ， 假 定 已 经 有 了 150 个 样本 ， 对 每 一 样 
本 ， 不 仅 知道 它 10 个 变量 的 测量 值 ， 而 且 还 知道 它 的 类 别 。 为 简单 起 见 ， 假 定 每 一 类 各 有 
50 个 样本 。 分 类 回归 树 的 形成 通常 由 三 个 步 又 来 实现 : 在 第 一 步 中 ， 一 个 全 树 利 用 二 进 制 
劈 分 程序 被 生长 。 首 先 起 始 于 所 有 的 150 个 样本 创建 一 个 根 节 点 ， 在 每 个 变量 上 一 个 “是 ” 
或 “和 否 ” 的 问题 不 断 地 被 询问 ， 根 据 询 问 的 结果 把 样本 最 终 分 成 两 个 区 域 。 形 象 化 地 说 ， 也 
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就 是 检查 所 有 形 如 xz(1) <c 的 分 化 ， 这 里 c 是 一 个 常数 ， 它 的 变化 范围 自 z(1) 的 最 小 值 到 
c0) 的 最 大 值 。 具 体 的 分 化 是 这 样 的 ， 假 设 c=1.1,， WARE rA) 二 2.6 的 客体 被 分 化 到 
左边 ， 其 余 的 分 化 到 右边 。 计 算 左 右 两 边 分 属 类 1、 类 2 和 类 3 的 样本 数目 ， 假 设 左边 是 
23、14、21， 右 边 是 27、36、29。 注 意 这 一 分 化 并 没有 把 三 个 类 很 好 地 分 开 ， 但 也 许 其 他 
的 一 些 c 值 会 给 出 更 好 的 分 化 。 分 类 回归 树 方 法 通过 变化 c 值 检 查 所 有 可 能 的 分 化 ， 然 后 选 
择 其 中 最 好 的 一 个 ， 假 设 为 z(1) 过 5.45。 最 好 的 分 化 给 出 了 类 别 划 分 的 最 好 结果 。 分 类 回 
归 树 利用 数值 准则 评价 每 一 分 化 在 区 分 类 别 方面 的 优 劣 ， 经 常用 到 的 辟 分 准则 可 以 参考 文献 
L1]。 在 获得 关于 x CD 的 最 优 分 化 后 ， 分 类 回归 树 继续 检查 所 有 形 如 x (2) 二 c 的 分 化 ， 并 
且 找 出 其 中 最 好 的 一 个 ， 接 着 分 类 回归 树 以 同样 的 方式 ， 确定 xD. orn. x OO) 对 应 的 最 
优 分 化 。 这 样 便 获 得 了 10 种 不 同 的 分 化 ， 其 中 每 一 种 为 某 一 个 变量 对 应 的 最 优 分 化 。 根 据 
同样 的 评价 准则 ， 从 这 些 分 化 中 挑选 出 一 个 最 好 的 分 化 。 假设 这 一 最 好 的 初始 分 化 是 x OD 
二 5.45， 以 三 个 类 别 的 数目 形式 表达 ， 这 一 分 化 如 图 7-31 所 示 。 然 后 ， 相 似 的 方法 步骤 被 
应 用 于 左边 结 点 的 数据 。 如 此 的 步骤 能 够 一 直 持 续 到 某 一 停止 准则 到 达 ， 例 如 每 一 终结 点 最 
小 样本 的 数目 为 5， 或 者 某 一 终结 点 全 为 一 类 样本 。 上 面 的 全 树 模型 很 可 能 是 一 个 过 生长 的 
树 模 型 。 用 这 棵 树 去 预测 训练 样本 时 ， 会 得 到 非常 低 的 分 类 误差 ， 甚 至 可 以 是 零 误 差 。 但 是 
当 预 测 新 的 样本 时 ， 很 可 能 会 产生 大 的 分 类 误差 ， 这 是 一 种 过 拟 合 的 现象 。 这 是 由 于 这 棵 树 
在 生长 的 过 程 中 过 分 地 学 习 了 训练 样本 的 结构 的 缘故 。 一 个 解决 的 办 法 就 是 剪 枝 这 棵 树 。 剪 
枝 通常 从 全 树 的 底 端 开始 ， 每 次 剪 枝 过 程 ， 一 对 终结 点 被 剪 掉 。 重 复 剪 枝 步 又 多 次 ， 便 可 以 
得 到 一 系列 子 树 模 型 (图 7-32) 。 在 第 三 步 中 ， 一 个 最 优 的 树 模 型 被 选择 依据 下 列 的 费用 复 


杂 度 指标 : 

























































































COM) —QOMD T YL (7-106) 


式 中 , QUID 为 子 树 模型 错 分 样本 引起 的 损失 ;7 为 一 个 用 来 平衡 整体 错 分 样本 引起 的 
损失 和 分 类 回归 树 大 小 的 正则 化 参数 ; 工 代表 数 的 大 小 ， 即 终结 点 的 数目 。 





















x(1)<5.45 


基于 变量 x 的 最 优 分 化 


分 类 回归 树 既 简单 又 直观 ， 也 许 有 人 会 认为 它 过 于 简单 而 不 可 能 有 其 他 复杂 方法 如 判别 
分 析 、 逻 辑 回归 或 线性 回归 等 准确 。 但 实际 上 它们 的 误差 率 非 常 低 ， 很 多 情况 下 要 比 复杂 
法 的 误差 率 低 ， 特 别 当 处 理由 许多 独立 变量 组 成 的 复杂 数据 时 ， 由 分 类 回归 树 方法 产生 的 二 
又 树 的 误差 率 要 比 通常 的 参数 方法 的 误差 率 低 得 多 。 分 类 回归 树 方法 不 仅 是 非 参 数 的 ， 它 还 
考虑 了 这 样 一 个 事实 ， 即 在 数据 的 不 同 部 分 ， 变 量 间 的 关系 有 可 能 不 同 。 例 如 ， 一 旦 数据 被 
分 成 两 部 分 ， 由 于 这 两 部 分 数据 变量 之 间 的 关系 不 同 ， 左 边 部 分 数据 进一步 的 分 化 通常 与 右 
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x(1)«5.45 





x(1)«6.15 









x(1)<7.05 


(6)<-2.199 





2 3 
一 棵 全 树 被 剪 枝 的 示意 图 (其 中 虚线 部 分 为 剪 掉 的 结 点 ) 


边 部 分 数据 进一步 的 分 化 不 同 。 另 外 ， 分 类 回归 树 方法 还 非常 稳健 ， 它 受 少 数 异 常数 据 的 影 
响 非 常 小 ， 而 通常 的 参数 方法 受 少数 异常 数据 的 影响 则 非常 大 。 


三 、 助 推 建 模 


助 推 法 (boosting) 是 最 近 二 十 年 来 提出 的 最 为 强大 的 集合 式 学 习 算 法 之 一 。 它 主要 起 
WF PAC (probably approximately correct). 学 习 框 架 和 集合 式 学 习 的 概念 ， 并 且 最 初 仅 仅 
是 为 分 类 问题 设计 的 。 基 于 PAC 理论 框架 ，Kearns 和 Valiant 第 一 次 提出 了 这 样 的 一 个 问 
Bi. 是 否 一 个 弱 的 学 习 算 法 “〈 仅 仅 轻 微 地 好 于 随机 猜测 的 学 习 算法 ) 能 够 被 助 推 成 为 一 个 任 
意 精 确 的 强大 的 学 习 算 法 呢 ? 这 样 一 个 问题 便 构成 了 构建 助 推 法 算法 的 基石 。 第 一 个 可 证 明 
的 具有 多 项 式 时 间 的 助 推 法 算法 是 由 Schapire 于 1990 年 基于 PAC 理论 框架 首先 提出 的 ， 不 
过 这 个 最 早 的 助 推 法 算法 由 于 有 很 多 缺点 而 没有 被 广泛 地 应 用 [5 。Freund 和 Schapire 于 
1995 年 共同 提出 的 Adaboost 算法 则 克服 了 早期 助 推 法 算法 的 众多 缺点 ， 因 此 成 为 了 最 为 流 
行 的 助 推 法 学 习 算 法 而 得 到 了 广泛 的 研究 和 应 用 [5 。Adaboost 由 于 其 杰出 的 预测 性 能 也 已 
经 在 化 学 领域 得 到 了 广泛 的 应 用 ,诸如 生物 信息 学 、 近 红外 光谱 、 定 量 结构 活性 关系 人 研究、 
蛋白 质 结构 预 测 以 及 质谱 分 析 等 。 

下 面 首先 介绍 一 下 Adaboost 算法 的 计算 过 程 〈 见 图 7-33)。 考 虑 一 个 两 分 类 问题 ， 两 
类 分 别 用 y 一 十 1 和 y 二 一 1 来 标记 。 单 个 分 类 算法 被 标记 为 G(Cz) E (一 1，1) 。 这 样 
Adaboost 算法 能 够 通过 以 下 几 个 步骤 来 实现 。 

CD 首先 初始 化 每 个 训练 样本 的 权重 系数 (wn) 并 标记 为 oh? — 1/N ， 这 里 7 一 
1，…，N， 为 训练 样本 的 数目 。 

(2) 重复 下 列 的 步骤 全 次， 每 一 个 标记 为 1, 1 二 1,，…, T. 

C 拟 合 一 个 分 类 算法 到 训练 样本 上 ， 目 的 是 最 小 化 下 面 的 加 权 误 差 函 数 : 

N 


Ji = uU n) É y,) (7-107) 


n=] 
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离散 Adaboost 方 法 (分 类 ) 
训练 样本 数据 构筑 数据 

1 Opi 1 Og 

2 (092 2 Op 

3 os 3 Op 

4 094 4 Ou A b B 数据 

一 | 一 一 > 建 模 并 测定 won 

5 ou 5 os 和 预 舍 值 ““ 
6 O06 6 C46 

: ^v | 用 权重 构建 m 个 “| Pa 4 

8 Oog A 8 Og 加 权 平 均值 
9 (009 9 io 

网 重复 7 次 
182 
(=1,2,…,m) 


离散 Adaboost 算法 的 构建 过 程 


式 中 , IO, (xz,) Æ yn) 是 一 个 指标 函数 ， 当 Gi Go, E y, 时 它 等 于 1， 否 则 为 0。 
© 计算 下 列 的 量 : 





N 
Poe IG Æ yn) 
€ ,— s (7-108) 

















然后 用 上 面 的 量 计算 每 个 样本 的 置信 和 度 指 标 : 
l—e, 
a, -u[ (7-109) 
CD 更 新 每 一 个 训练 样本 的 权重 系数 : 


v! =w exp(a.I (Gi (xn) Æ Yn) ) (7-110) 
(3) 最 后 组 合 所 有 构建 的 分 类 算法 去 构建 最 后 的 模型 s 

















T: 
G(x) — signC P 1a,G, (x)) (7-111) 
t=1 





在 Adaboost 算法 中 ， 每 一 个 样本 被 指定 一 个 权重 wh ， 在 后 面 的 迭代 中 权重 oti? 将 会 
随 着 样本 分 类 的 难 易 程度 而 变化 。 初 始 ， 第 一 个 分 类 算法 G1(x) 被 训练 基于 相等 的 权重 系 
数 ， 即 构建 一 个 常规 的 分 类 算法 。 然 后 在 每 一 次 迭代 循环 中 GO 二 1,2,…,T) ， 分 类 算法 
G, x) 被 应 用 到 带 有 现存 的 权重 系数 w i? 的 式 〈7-107) 的 训练 样本 上 。 每 一 个 基 分 类 算法 
的 加 权 的 误差 率 通 过 式 (7-108) 计算 。 随 后 每 个 分 类 算法 的 置信 和 度 指标 o, 通过 式 (7-109) 
来 计算 。 大 的 置信 度 说 明 这 个 基 分 类 算法 在 最 后 的 决策 中 发 挥 着 更 为 重要 的 作用 。 通 过 式 
(7-110)， 所 有 样本 的 权重 能 够 被 更 新 : 增加 被 本 次 的 分 类 算法 G (x) 所 错 分 样本 的 权重 ， 
降低 那些 被 正确 分 类 的 样本 的 权重 。 这 样 ， 下 一 个 分 类 算法 G GO. 的 构建 则 会 更 加 关注 
于 被 前 面 分 类 算法 所 错 分 的 样本 。 当 重复 上 面 的 步 又 人 次 后 ， 最 后 的 分 类 模型 Ga) 通过 
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组 合 所 有 的 带 有 不 同 置信 和 度 cl ass cn ar 的 基 分 类 算法 来 获得 。 
图 7-33 给 出 了 一 个 说 明 助 推 法 能 够 显著 增加 弱 分 类 算法 的 预测 性 能 的 例子 。 在 这 个 例 
子 中 ， 两 个 变量 x, 和 x, 分 别 独立 地 由 标准 的 正 态 分 布 产生 。 每 个 样本 的 类 别 由 下 面 的 公式 给 出 : 














2 
1 WES x? <1. 64 
i=] 


—1 其 他 
这 样 500 个 训练 样本 被 用 来 建立 模型 〈 其 中 每 类 分 别 为 250 个 ) 500 个 测试 样本 被 用 
来 评估 所 建 模 型 的 误差 率 [ 见 图 7-34 (a) ]。 从 图 7-34 (bo 中 可 以 看 到 ， 单 个 stump 的 应 
用 获得 了 非常 大 的 测试 误差 45. 8% ;一 个 带 有 12 结 点 的 决策 树 给 了 7.8% 的 误差 率 ， 不 过 
随 着 迭代 次 数 的 增加 ， 助 推 法 的 测试 误差 稳步 减 小 (单个 stump 被 用 作 基 分 类 算法 )， 当 过 
代 次 数 达 到 278 时 ， 误 差 率 降低 至 5.2%。 这 个 结果 是 显著 地 低 于 单个 stump 的 测试 误差 
的 ， 同 时 也 低 于 决策 树 的 误差 率 。 




















































































































































































































































































































4 T T T 0.5 
A B 
i F I 
3- E qn 单个 stump 
ee 0.4 
2 Tea 4 
pE 十 十 
fuk ei 0.35 
+ dE" ht 二 
1r dent ln 
da ret s4 + 0.3 
NE f 
+ 
ot nd Su 23 05 
D + a MES bt 
3 S s 4D qxHt E 
NEG Ne n 0.2 
E CEA MUS r 
iQ uL 二 0.15 
es L + Tit t 
p 才 0.1 CART( 有 12 结 点 ) 
一 3 上 
g 0.05 
-4 
-4 =2 0 2 4 0 100 200 
x (UE 
(a) (b) 
DELE 一 个 说 明 助 推 法 能 够 显著 增加 弱 分 类 算法 的 预测 性 能 的 例子 


(a) 一 个 两 变量 表征 的 二 分 类 数据 
(b) 助 推 法 、CART 和 单个 stump 被 用 于 该 数据 时 的 误差 率 























Adaboost 的 极 大 成 功 吸 引 了 众多 学 者 来 研究 它 的 原理 。Friedman 等 在 统计 上 分 析 了 
Adaboost 算法 ， 最终 获得 了 Adaboost 在 统计 上 实质 是 一 个 自 适应 加 合 模型 ， 并 最 终 估计 了 
类 别 概率 的 对 数 商 的 结论 [55] 。 助 推 法 和 自 适应 加 合 模型 的 这 种 连接 不 仅 说 明了 助 推 法 为 何 
是 一 个 高 效 的 分 类 算法 ， 而 且 也 打开 了 一 扇 开 发 更 为 有 效 的 助 推 法 算法 的 大 门 。 基 于 此 ， 后 
来 出 现 了 许多 不 同 的 助 推 法 算法 ， 诸 如 Friedman 的 梯度 助 推 法 和 更 为 有 名 的 随机 梯度 助 推 
法 等 [56,57] 。 通 过 优化 不 同 的 损失 函数 ， 助 推 法 后 来 不 仅 能 够 处 理 分 类 问题 ， 而 且 也 可 以 有 
效 地 处 理 回归 问题 。 在 实际 应 用 中 ， 有 两 种 构建 助 推 法 回归 模型 的 方法 : 前 向 加 合 建 模 和 类 
似 于 助 推 法 分 类 的 建 模 方法 。 
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下 面 将 介绍 Friedman 的 前 向 加 合 助 推 法 模型 。 广 义 上 来 说 ， 一 个 加 合 模型 能 够 表 





T 
FG eh fiGO EB fiGO te Herf rO = 2B fO (7-112) 








AF, Bi(t =1, 2, cn. TO 为 拓展 系数 ; 基 国 数 广 (Cxz) 2636 ee A A x 简单 的 

函数 。 基 于 加 合 思想 的 助 推 GEHE 旨 在 发 现 一 个 潜在 的 函数 下 (xz ) 去 最 小 化 估计 的 函数 

值 和 实际 相应 变量 y 间 的 平方 误差 。 这 样 ， 助 推 法 算法 在 每 次 迭代 中 试图 去 搜索 一 个 简单 
的 函数 f(x) 去 最 小 化 下 面 的 公开 



































mn ly Fo) fr) (7-113) 


2 i= 


NP, 为 添加 的 函数 f(x) 的 数目 。 这 样 ， 每 一 个 简单 的 函数 通过 拟 合 上 次 剩 下 的 残 
差 来 构建 。 基 于 前 向 加 合 的 助 推 法 算法 被 构建 如 下 。 

CD 首先 用 基本 的 回归 模型 FOX) 拟 合 训练 数据 ， 表 达 为 yi — f1(X) 。 然 后 计算 残 差 : 
Yes 一》 了 一 1y1 o HP, 0<v<1, v 是 一 个 缩减 因子 ， 它 可 以 是 常数 ， 也 可 以 是 一 个 变量 。 
缩减 因子 的 使 用 能 够 有 效 地 预防 过 拟 合 。 这 样 ， 仅 仅 这 个 拟 合 值 的 ” 倍 被 提取 在 每 一 步 中 。 

(2) 重复 下 列 的 步骤 工 次 ， 标 记 为 :上 一 2，…，T 了 。 

CD 用 基 回 归 模 型 fax) 拟 合 上 次 的 残 差 ys 1 ， 标 记 为 SAA). 

@ 更 新 残 差 : 























Y res, 1t T Y res, 11 Vy 
在 本 步 中 ， 仅 仅 y, 8 o 倍 被 用 作为 回归 信息 。 
(3) 最 后 的 预测 可 以 通过 下 列 的 公式 给 出 : 


T 
Ype 7 9iYi d vaya bon v payra Hoyr =) v, fX) (7-114) 


t—1 

通过 上 面 的 步骤 可 知 ， 前 向 加 合 的 助 推 法 算法 的 基本 思想 就 是 通过 用 一 个 简单 的 回归 函数 去 
拟 合 没 被 上 次 拟 合 的 残 差 来 序列 地 构建 一 sedan ss 在 这 个 过 程 中 ， 每 次 剩余 的 残 差 
正 是 在 本 次 迭代 中 需要 最 小 化 的 损失 函数 的 梯度 。 图 7-35 显示 了 一 个 利用 助 推 法 决策 规则 
构建 回归 模型 的 例子 。 在 这 个 例子 中 ， 实 际 的 函数 为 黑色 的 二 次 函数 曲线 Fiwe(zx;) 一 2 十 
3232, x, € [一 2，2] 。 当 利用 助 推 法 算法 到 stump 模型 上 ， 获 得 了 拟 合 曲线 。 图 中 清晰 地 
显示 了 助 推 法 模型 捕捉 到 的 这 个 训练 数据 的 非 线性 结构 。 代 替 上 面 的 平方 误差 损失 函数 ， 更 
为 稳健 的 损失 函数 和 相对 应 的 梯度 函数 能 够 被 构建 [5 。 表 7-23 列 出 了 一 些 常用 的 损失 函数 
以 及 它们 的 梯度 。 


本 ”常用 的 损失 函数 以 及 对 应 梯度 函数 






























































损失 函数 梯度 
平方 误差 损失 1/2Ly; -FGr;)]? y; — FG) 
绝对 误差 损失 | yF Cdl sign[ y; — F Gr;) ] 
"" 1/2Ly; CF Gr) 2 4| y; — FC) | <è yi - FG D, H| y; - FGr | à 
| y; - FG |] y; FG 128 8Cy; - Féx;)D S| y; — FCr 2] 278 








注 :6 为 {| y; —FGeo a 分 位 数 。 
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助 推 法 决策 规则 

















助 推 法 在 stump 模型 上 估计 的 回归 曲线 


四 、 随 机 森林 


随机 森林 (radnom forests) 是 Breiman 等 基于 集合 模型 的 思想 于 2001 年 提出 的 一 种 新 
型 的 机 絮 学 习 算 法 。 在 了 解 随机 森林 算法 的 原理 之 前 ， 首 先 要 理解 Breiman 于 1995 年 提出 
的 另 一 个 最 为 简单 但 是 拥有 很 好 的 预测 性 能 的 集合 式 算 法 : 自助 集合 法 (bootstrap 
aggregation) ， 简 称 为 bagging[59] 。 最 初 ，bagging 的 提出 是 用 来 提高 决策 树 模型 的 预测 精 
度 的 ， 不 过 作为 一 个 广义 的 集合 建 模 的 策略 ， 它 后 来 被 应 用 到 许多 其 他 的 学 习 算 法 上 ， 例 
如 ， 人 工 神 经 网 络 、 线 性 判别 分 析 、 支 持 向 量 机 、 偏 最 小 二 乘 等 [60 一 6 。 

作为 一 个 例子 ， 下 面 介 绍 一 下 由 Breiman 提出 的 最 为 原始 的 bagging 树 算法 。Bagging 
树 的 主要 思想 是 基于 bootstrap 的 采样 方法 构建 工 个 未 剪 枝 的 分 类 回归 树 来 获得 一 个 具有 不 
同 结构 树 的 集合 体 来 进行 预测 的 ( 见 图 7-36)。 假 定 N 个 样本 的 训练 数据 集 QZ= (o 
yi); (Œz; y2); s (ŒN; yn) }，y; 是 样本 x; 对 应 的 类 别 标签 。 一 个 bagging 算法 能 够 
通过 以 下 的 几 个 步骤 来 实现 : 首先 从 训练 集中 基于 bootstrap 的 取样 方法 选取 N 个 样本 ， 构 
成 一 个 bootstrap 训练 集 , Z* — (xi s. yi), Gz e yg s c Oso yy). FI FA 
bootstrap 训练 集 被 用 来 构建 一 个 决策 树 模 型 去 获得 这 N 个 样本 的 预测 ， 每 个 决策 树 模 型 可 
以 通过 未 剪 枝 的 分 类 回归 树 算 法 来 获得 。 这 样 ， 重 复 上 面 的 两 个 步骤 工 次 ， 能 够 获得 了 个 
bootstrap 训练 集 ， 进 而 利用 这 些 bootstrap AREI T 个 决策 树 模 型 。 最 后 每 一 个 样 
本 通过 集合 式 预测 的 思想 获得 它们 的 预测 结果 ， 对 于 分 类 问题 ， 每 一 个 样本 的 bagging 估计 
是 由 产生 的 工 个 模型 中 大 多 数 模 型 对 这 个 样本 预测 的 类 别 来 确定 ; 对 于 回归 问题 ， 每 一 个 
样本 的 bagging 估计 则 是 由 这 工 个 模型 对 这 个 样本 预测 的 平均 值 或 加 权 平 均值 来 确定 。 尽 
管 bagging 算法 在 理论 上 能 够 构建 任何 算法 的 集合 模型 ， 不 过 bagging 算法 在 构建 诸如 决策 
树 、 人 工 神经 网 络 等 不 稳定 的 学 习 算 法 时 则 会 表现 出 更 为 优越 的 性 能 ， 这 主要 是 因为 
bagging 借助 于 累计 预测 的 方式 显著 地 降低 了 不 稳定 学 习 算 法 的 方差 。 

尽管 bagging 在 多 数 情况 下 能 够 较为 显著 地 提高 单个 学 习 算 法 的 预测 性 能 ， 不 过 通过 深 
入 的 理论 分 析 可 知 ， 通 过 在 变量 空间 的 随机 采样 能 够 更 进一步 地 减 小 bagging 建立 的 每 个 模 
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bagging 算法 的 构建 过 程 














型 之 间 的 相关 性 ， 这 也 就 意味 着 增 大 了 单个 模型 之 间 的 多 样 性 : 提高 集合 式 模型 预测 性 能 的 
一 个 最 为 重要 的 因素 。 不 仅 如 此 ， 由 于 每 个 决策 树 模 型 搜索 空间 的 减 小 〈 仅 仅 在 部 分 的 变量 
上 进行 搜索 ) 能 够 显著 地 缩短 bagging 模型 的 学 习 时 间 。 基 于 此 Breiman 提出 了 更 为 著名 的 
随机 森林 的 机 器 学 习 算 法 。 随 机 森林 算法 的 思想 直接 来 源 于 bagging， 因 此 可 以 看 作为 
bagging 的 一 个 增强 的 变种 。 随 机 森林 和 bagging 之 间 唯 一 的 区 别 在 于 每 个 决策 树 模 型 的 建 
立 ， 对 于 每 一 个 bootstrap 训练 集 ， 随 机 森林 通过 下 列 的 修改 来 生长 一 个 树 : 在 每 一 结 点 ， 
仅仅 从 mtry 个 变量 中 随机 选择 而 非 全 部 的 变量 中 选择 最 好 的 臂 分 ， 这 里 mtry 是 随机 森林 
的 唯一 截断 参数 。 这 样 每 个 树 被 生长 直到 特定 的 停止 准则 到 达 ， 并 且 不 需要 任何 的 剪 枝 。 除 
上 面 之 外 ， 其 他 的 步骤 是 完全 一 致 于 bagging 树 构 建 过 程 的 。 从 上 面 的 分 析 可 以 看 到 ， 随 机 
森林 是 通过 样本 空间 的 bootstrap 采样 和 变量 空间 的 随机 选择 来 建立 单个 树 模 型 ， 最终 组 合 
成 一 个 强大 的 集合 式 学 习 机 器 的 。 由 于 随机 森林 的 杰出 预测 性 能 、 少 有 的 几 个 需要 调节 的 参 
数 、 高 速 的 建 模 过 程 以 及 它 所 附带 的 诸多 有 用 的 提取 数据 信息 的 辅助 设备 ， 它 已 经 被 广泛 地 
应 用 到 众多 的 科学 研究 领域 之 中 ， 如 生物 信息 学 、 定 量 结构 活性 关系 研究 (QSAR)、 电 子 
通信 、 文 本 识别 等 。 






































































































































参考 文献 

[1] Diday E. Recent progress in distance and similarity 136; 15. 

measures in pattern recognition, Second international [7] Coomans D. Massart D L. Anal Chim Acta. 1982, 

joint conference on pattern recognition. 1974, 534- 138. 153. 

539. [8] Coomans D. Massart D L. Anal Chim Acta. 1982, 
[2] KRE, WEBE. 模式 识别 导论 . 上 海 : 上 海 科 学 技 138: 167. 

术 出 版 社 ，1983. Lo] 宋 新 华 ， 陈 苗 ， 俞 汝 勤 . 中 国 科 学 : B 辑 ，1993，23: 
[3] KEE, DFR. 多 元 统计 分 析 引 论 . 北京 : 科学 出 245. 

Wt. 1983. [10] Simits J R M. Melssen W J. Buydensand L M C. 
[4] 杨 自 强 . 计算 机 应 用 与 应 用 数学 . 1976. 10: 1. Katman G. Chemometr Intell Lab Syst, 1994, 23: 
[5] Kowalski B R, Bender C F. Anal Chem, 1972. 44; 267. 

1405. [11] Zupan J, Gasteiger J. Anal Chim Acta, 1991. 248; 1. 
[6] Coomans D. Massart D L. Anal Chim Acta, 1982. [12] 史 忠 福 . 神经 计算 . 北京 : 电子 工业 出 版 社 ，1993. 


























[17] 


[27] 


[28] 


[29] 


[30] 


[31] 


[32] 


[33] 


[34] 














] Wu W, 


分 析 化 学 手册 


10 化 学 计量 学 





] Simits J R M, Melssen W J, Buydensand L M C, 


Katman G. Chemometr Intell Lab Syst, 1994, 22: 
165. 

张 承 福 . 力学 进展 ，1994，24: 186. 

焦 李 成 . 神经 网 络 计算 . 西安 : 西安 电子 科技 大 学 出 
版 社 ，1993. 
Massart D L, 








H 














Kaufman The Interpretation of 


Analytical Chemical Data by the Use of Cluster 
Analysis. NewYork: John & Sons. 1983; 马 萨 特 DD 
L, RSL. 聚 类 分 析 法 解析 化 学 数据 . 刘 昆 元 译 . 
北京 : 化 学 工业 出 版 社 ，1990. 

Rao C R. Cluster Analysis 











Applied to a study of race 





Mixture in Human Population. Classification and 
Clustering. Academic Press. 1977. 

Wishart W. Biometrics, 1969, 25; 165. 

Lance G N, Williams W T. Comp J, 1969. 12: 60. 
俞 汝 勤 . 化 学 计量 学 导论 . 长 沙 : 湖南 教育 出 版 社 ， 
1991: 161. 

MacQueen J. Statistics and Probability, 1967, 1: 1. 
Ball G H, Hall DJ. ISODATA, A novel method of 
data analysis and pattern classification, AD 699616, 
1965. 

Phanendra Babu G, Narasimha Murty M. Pattern 


Recognition, 1994, 27; 321. 


Sun L X, Xu F, Liang Y Z, et al. Chemometr 
Intelli Syst, 1994, 25: 51. 
Lucasius C B, Dane A D, Kateman G. Anal Chim 
Acta, 1993, 282: 647. 

] Brynn Hibbert D. Chemometr Intell Syst, 1993, 
19: 277. 
Kalivas J. Simulated Annealing Applied to 


Chemistry, Elsevier, 1994, 488. 

Zhang Q M. Yan K D, Tian SJ, et al. 中 
1991, 14: 15. 

Liu X D, Van Espen P, Adams F, etal. Anal Chim 
Acta, 1987, 200; 421. 

Horia F Pop, Dumitrescu D. Anal Chim Acta, 
995; 310; 269. 





Bezdek J C. Pattern Recognition with Fuzzy Objective 
Function Algorithms. New York: Plenum Press. 
1983. 

金 闻 博 ， 戴 亚 . 烟草 化 学 . 北京 : 清华 大 学 出 版 社 ， 


994; 50. 








Roberto Aruga, Piero Mirti. Anal Chim Acta, 
1993, 276. 197. 
Kim T. Bezdek J C. Hathaway R J. Pattern 


Recognition, 1988, 21; 651. 
Baldovin A. Wu W, Centner V. 
1996, 121: 1603. 

Guo Q. Jouan Rimbaud D. Massart D L. 


et al. Analyst, 





[37] 


[38] 


[39] 


[41] 





[42] 











Chemometr Intell Lab Syst. 1999, 45; 39. 

Wold S. Sjostrom M. Chemometr Intell Syst. 1998. 
44; 3. 

Dief A S. Advanced Matrix Theory for Scientists and 
Engineers. Tunbridge Wells & Abacus 
1982, 93. 


London: 
Press. 
Stewart G W. Introduction to Matrix Computations. 


New York: Academic Press, 1973; 340. 


] Jellum E. Bjornson I, Nesbakken R, Johansson E. 


Wold S. J Chromatogr, 1981. 217; 231. 

Wold S. Albano C. Dunn W J, Edlund I V. 
Esbensen K, Geladi P, Hellberg S, Johansson E, 
Lindberg W, Sjostrom M. Multivariate Data Analysis in 
Chemistry // Kowalski B R. Chemometrics: Mathmatics 
and Statistics in Chemistry, NATO ASI Series C; 
Mathmatics and Physical Science. v 138. Dordrecht: 
D Reidel Pbb. Co. 1984; 17. 

Wold S. Sjostrom M. SIMCA: A Method for 
Ana 
Ana 


yzing Chemical Data in Terms of Similarity and 
ogy // Kowalski. Chemometrics: Theory and 
Applications. ACS Ser, 1977. 52; 243. 


Wold S. Pattern Recognition. 1976. 8: 127. 





Kvalheim O M. Øygard K, Grahl-Nielsen O. Anal 
Chim Acta, 1983, 150; 145. 

Eide M O, Kvalheim O M, Telnæs N. Anal Chim 
Acta, 1986, 191: 433. 


Kvalheim O M. Chemometr Int Lab System, 1987, 
2: 127. 


Yeung E S. Anal Chem, 1980, 52; 1120. 
li H D. Liang Y Z; Xu Q S. Cao D S J 
Chemometr, 2010. 24: 418. 


Vapnik V. The Nature of Statistical Learning Theory. 
2nd Ed. New York; Springer. 1999. 

Vapnik V. Statistical Learning Theory. New York: 
Wiley. 1998. 

Li HD. Liang Y Z, Xu QS. Chemometr Intell Lab, 
2009. 95; 188. 

Breiman L, Friedman J H, Ohlsen R A, Stone C J. 
and Regression Trees. California: 
1984. 


Schapire R. Machine learning, 1990, 5: 197. 


Classification 


Wadsworth International, 


] Freund Y, Schapire R. Information and 
Computation, 1995, 12; 252. 

Friedman J, Hastie T, Tibshirani R. Annals of 
Statistics, 2000, 28: 337. 

Friedman J H. Annals of Statistics, 2001, 29: 


1189. 
Friedman J H. Computational Statistics Data Anal, 
2002, 38: 367. 

H. Hastie 





T. Tibshirani R. The 


Friedman J 


第 七 章 “” 化 学 模式 识别 eos | 


Elements of Statistical Learning: Data Mining. Finding quasars// 3rd Statistical Challenges in Modern 

Inference and Prediction. New York: Springer- Astronomy Conference (SCMA [|]). 243-254. 

Verlag. 2008. [62] Svetnik, Vladimir. Liaw, Andy, Tong. Christopher. 
[59] Breiman L. Machine Learning. 1996. 24; 123. Culberson, Christopher J, Sheridan. Robert P. 
[60] Breiman L. Machine Learning. 2001. 45; 5. Feuston. Bradley P. J Chem Information and 


[61] Breiman L, Last M, Rice J. Random forests: Computer Sci. 2003. 43; 1947. 


第 八 章 ”计算 机 数字 模拟 法 

















本 章 介绍 的 计算 机 数字 模拟 法 是 研究 化 学 反应 、 化 学 量 测 过 程 中 的 误差 规律 和 进行 其 他 
化 学 过 程 的 机 理 研 究 的 一 个 很 有 效 的 辅助 手段 ， 亦 属 化 学 计量 学 研究 的 一 个 重要 内 容 。 本 童 
将 以 两 种 不 同 的 模拟 方法 为 线索 展开 。 首 先 ， 对 于 基于 统计 机 理 的 Monte Carlo 数字 模拟 法 
作出 介绍 。 该 类 方法 的 主要 特点 是 在 于 其 概率 特征 ， 在 化 学 动力 学 系统 的 模拟 研究 和 误差 分 
析 的 模拟 研究 中 得 到 广泛 应 用 ， 本 章 就 主要 以 它们 作为 具体 对 象 进 行 详细 介绍 。 值 得 提出 的 
是 ， 对 于 很 多 别 的 分 析 过 程 ， 该 方法 亦 可 同样 适用 ， 所 以 ， 掌 握 该 法 的 基本 理论 和 基本 思路 
比 起 具体 计算 机 程序 来 就 显得 更 重要 了 。 本 章 将 把 着 重点 放 在 介绍 该 方法 基本 思路 之 上 。 对 
于 基于 微分 方程 数字 解法 的 计算 机 模拟 方法 ， 本 章 在 介绍 目前 在 应 用 数学 中 常用 的 一 些微 分 
方程 数字 解法 的 基础 上 ， 主 要 对 化 学 动力 学 及 电化 学 过 程 的 具体 模拟 作出 详细 介绍 。 值 得 提 
出 的 是 ， 基 于 微分 方程 数字 解法 的 计算 机 模拟 的 难点 不 在 于 其 具体 算法 ， 而 在 于 需 模拟 的 体 
系 的 微分 方程 本 身 及 其 初始 条 件 和 边界 条 件 的 确定 。 所 以 ， 本 书 的 重点 是 介绍 一 些 可 通用 的 
微分 方程 数字 解法 。 


"B— ”基于 统计 机 理 的 Monte Carlo 数字 模拟 法 


第 二 次 世界 大 战 期 间 ， 美 国 Los Alamos 科学 实验 室 的 研究 人 员 需 要 考察 核反应 的 屏蔽 
问题 ， 他 们 应 用 滚轮 赌 具 试验 构造 理论 模式 ， 一 步 步 和 逼近 了 问题 的 解 。 由 于 Los Alamos 的 
研究 项 目 当 时 是 绝密 的 ， 采 用 著名 赌 城 的 名 字 Monte Carlo 作为 代码 ， 从 此 ，Monte Carlo 
模拟 方法 这 一 名 词 ， 成 为 随机 模拟 方法 的 代名词 。 

产生 与 组 合 具 有 特定 统计 特性 的 随机 数 是 模拟 动态 随机 过 程 的 关键 ， 这 实际 上 就 是 随机 
变量 本 身 的 模拟 [5 。 随 机 变量 服从 一 定 的 分 布 ， 可 模拟 产生 服从 所 需 分 布 的 随机 数 。 有 时 
欲 模拟 体系 中 某 一 变量 是 一 个 确定 性 变量 与 一 个 随机 变量 的 加 合 ， 亦 可 通过 计算 机 来 模拟 。 
Monte Carlo 模拟 的 基础 是 任意 已 知 分 布 的 数学 抽样 ， 即 在 计算 机 上 产生 任意 已 知 分 布 的 随 
机 变量 的 随机 数 。 最 容易 得 到 的 是 O, D 区 间 均 匀 分 布 的 随机 数 ~>。 从 均匀 分 布 随机 数 通 
过 适当 变换 即 可 得 到 任意 分 布 的 随机 数 。 然 后 介绍 如 何 由 均匀 分 布 随机 数 产 生 任 意 分 布 的 随 
机 数 。 值 得 指出 的 是 ， 在 计算 机 上 产生 的 随机 数 ， 是 所 谓 “ 伪 随机 数 ”， 即 用 数值 方法 产生 
的 重复 再 现 的 《〈 周 期 性 的 )“ 随 机 ” 数 。 取 同样 的 起 始 值 ， 得 到 的 随机 数 系 列 总 是 全 同 的 。 


一 、 伪 随机 数 的 产生 方法 


1. 均匀 分 布 的 伪 随 机 数 的 产生 方法 

对 于 计算 机 上 产生 的 均匀 分 布 的 随机 数 系列 ， 要 求 在 指定 区 间 均 匀 分 布 ， 即 每 个 数 有 相 
同 的 出 现 概率 ， 数 字 之 间 要 实际 上 相互 独立 ， 并 在 指定 的 长 度 区 间 内 次 序 不 重复 , 但 又 具有 
一 定 周期 性 ， 而 且 ， 所 用 的 算法 应 快速 ， 占 用 内 存 少 。 下 面 将 介绍 两 种 最 常用 的 方法 。 

(D RARE ” 乘 同 余 法 产生 (0，1) 区 间 均 匀 分 布 随机 数 序列 的 迭代 计算 公式 为 






























































































































































































































































X;=ar;_1(modm) ri=x;/m (8-1) 
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RP, or. 是 伪 随 机 数 ; i 是 产生 序列 号 ; m 是 一 个 用 作 模 数 的 大 的 整数 ，a 是 整 常 数 。 
通过 调整 a、m 可 控制 产生 的 伪 随 机 数 系列 的 特性 。 上 式 的 意思 是 : x; 是 ax;_1 除 以 mm 后 
的 余数 ，z;/m 就 是 第 i 个 在 O, D 区 间 均 匀 分 布 的 随机 数 ， 如 此 反复 迭代 ， 可 以 产生 一 
个 随机 数 系列 ri. r2. 0e 
由 于 c; 是 除数 为 m 的 除法 中 的 余数 ， 所 以 OXLr;mm. HhOxLr;zzm. WR, 不 同 的 
Zz; 值 最 多 只 能 有 mm 个， 因此 不 同 的 ~; 最 多 也 只 能 有 wm 个 ， 即 由 乘 同 余 法 产生 的 系列 (7;} 
具有 周期 性 ， 其 周期 Tm， 产生 械 个 数值 后 会 发 生 循环 。 周 期 工 的 长 短 以 及 一 个 周期 之 
内 数目 系列 (ri. ros ce) 随机 性 的 好 坏 ， 与 参数 a、m 和 zx。 的 选取 有 关 。 

一 般 用 半 经 验 的 方法 来 选择 参数 a、m Mro, ERI (r 的 周期 比较 长 、 随 机 性 比较 
好 。 在 计算 机 上 实际 产生 出 系列 {xr;)}， 然 后 用 统计 检验 方法 检验 它 的 随机 性 数值 x; 在 
O, D 区 间 上 分 布 的 均匀 性 及 相互 间 的 独立 性 。 一 些 文献 推荐 下 列 类 型 的 参数 值 : 取 zu 三 
1 或 任意 奇数 ，m 二 2*，a 二 5%411, k 和 g 都 是 正 整数 ， 则 由 迭代 式 〈8-1) 所 产生 的 系列 周 
Hj T—2*U1, R 8-1 给 出 几 个 已 经 在 计算 机 上 实际 应 用 和 检验 过 的 参数 值 和 周期 。 


几 个 实际 应 用 和 检验 过 的 参数 值 和 周期 






















































































m a Xo 周期 了 
232 513 1 23022109 
236 513 il 235222x 1019 
242 517 1 2:022]012 





(2) 混合 同 余 法 ”混合 同 余 法 的 迭代 计算 公式 为 
r;-—ar;4--cInodm) r; = ğam (8-2) 
UP. z; i, m Ma 的 意义 同 前 ,cc 为 整 常数 ， 一 般 可 取 奇 数 。 通 过 调整 vc、c、7 可 
控制 产生 的 伪 随 机 数 系列 的 特性 。 如 取 m 一 2 ,a 一 27 十 1 3X a —4q--1. x) PAER JEH E 
数 ， 可 产生 随机 性 好 ， 且 有 最 大 周期 二 2* 的 随机 数 系列 eo, 














2. 正 态 分 布 的 伪 随 机 数 的 产生 方法 
【方法 1] Ar. Yos "s r, Hn 个 相互 独立 的 在 O, 1) 区 间 均 匀 分 布 的 随机 数 ， 
HT EG;)—1/2. D(x;) =1/12, 根据 李 雅 普 诺 夫 中 心 极限 定理 推 知 ， 当 & 充分 大 时 ， 


k 


qe — 127E (ri —k/2) (8-3) 


i=l 











的 分 布 渐 近 于 均值 为 0、 方 差 为 1 的 标准 正 态 分 布 ， 记 为 NC(0，1)， 故 可 把 办 近似 地 取 为 服 
从 标准 正 态 分 布 的 随机 数 。 通 常 可 取 10. 11. 12 等 数 ， 其 中 尤 以 取 12 最 为 简便 ， 当 & 取 
12 时 ， 





再 由 线性 变换 
w =g ren 


即 可 得 到 均值 为 a， 均 方差 为 o 的 正 态 分 布 的 随机 数 w。 
【方法 2】 取 两 个 独立 且 在 (0，1) 区 间 均 匀 分 布 的 随机 数 ri， rs, 作 变换 


51 =(—2lnri)!?cos(2nr,) (8-4a) 


5; 一 (一 2lnrl)12sin(2rry) (8-4b) 
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则 5, ，72 是 两 个 独立 的 服从 标准 正 态 分 布 随机 数 。 
再 由 线性 变换 














wı QT onl 





js =ü T 0N2 


即 可 得 到 均值 为 a， 均 方差 为 o 的 正 态 分 布 的 随机 数 w; 和 w. 

由 均匀 分 布 的 随机 数 还 可 以 产生 其 他 任意 不 同 分 布 的 随机 数 ， 如 泊 松 分 布 、 指 数 分 布 
等 ， 因 它们 在 化 学 中 不 太 常 用 ， 在 此 不 再 作 详 细 介 绍 了 ， 有 兴趣 的 读者 可 参阅 文献 L4,5]。 
另外 ， 在 Matlab 程序 语言 中 ， 都 备 有 均匀 分 布 和 正 态 分 布 的 随机 函数 ， 可 以 方便 使 用 。 


二 、 化 学 动力 学 系统 的 Monte Carlo 模拟 算法 


基于 化 学 动力 学 对 待 测 物 进行 定性 定量 分 析 是 分 析 化 学 的 一 个 重要 分 支 ， 所 以 ， 化 学 动 
力学 系统 的 模拟 在 分 析 化 学 中 占有 重要 地 位 。 对 化 学 动力 学 的 研究 ， 采 用 Monte Carlo 模拟 
技术 ， 可 以 避 开 解 微分 方程 的 困难 ， 因 而 不 需 引 入 为 解 微 分 方程 必须 附加 的 限制 条 件 或 有 关 
的 稳 态 近似 假设 [9 。 事 实 上 ， 用 Monte Carlo 技术 来 研究 和 模拟 化 学 动力 学 过 程 ， 就 是 将 化 
学 反应 的 有 效 碰撞 过 程 看 成 是 一 个 随机 过 程 ， 在 此 随机 过 程 中 ， 化 党 反应 的 有 效 碰撞 的 几率 
将 由 反应 的 速率 常数 的 大 小 和 反应 物 的 浓度 来 决定 。 本 节 将 用 一 些微 分 方程 易于 描述 的 反应 
为 例 ， 以 说 明 此 法 的 基本 原理 [7]。 

先 考察 最 简单 的 单 分 子 反应 












































RUN 
这 里 反应 物 分 子 A 按 一 级 反应 分 解 为 产物 分 子 了 B， 放 射 化 学 中 的 裂变 反应 一 般 属于 这 种 
类 型 。 为 了 用 Monte Carlo 方法 模拟 这 一 反应 ， 可 将 计算 机 内 存 认 作 反 应 器 ， 将 分 子 A (以 
数字 1 表示 ) 存储 于 其 中 ， 具 体 而 言 ， 可 设 一 个 数组 x (i) ,， 令 其 在 指定 的 序号 i 内 存储 数 
字 1 代表 分 子 A。 作 为 起 始 浓度 ，1 的 个 数 代 表 了 A 分 子 的 多 少 ， 即 
[1]o oc A ]o 














或 
[1]o —aLA]o (8-5) 


式 中 , a 为 比例 常数 。 可 另 选 用 数字 0 代表 不 参与 反应 的 溶剂 等 惰性 分 子 ， 为 了 模拟 反 
应 容器 的 真实 情况 ， 应 随机 地 将 1 与 0 存放 在 当 作 反应 容器 的 计算 机 内 存 位 置 ， 即 数组 的 不 
同 随机 序号 中 。 但 也 可 不 必 这 样 做 ， 例 如 共 250 个 分 子 A (1)、750 个 分 子 B (0)， 可 分 别 
放 在 1 一 250 及 251 一 1000 位 置 上 ， 下 面 取 用 这 些 分 子 时 ， 采 用 随机 的 办 法 ,效果 与 随机 存 
放 是 相同 的 。 

先进 行 随机 模拟 。 本 例 中 ， 令 程序 产生 1 一 1000 的 随机 数 。 设 出 现 的 随机 数 为 31， 即 
选择 第 31 号 位 置 上 的 元 素 ， 该 元 素 是 1， 反 应 发 生 ，1 转化 为 2，2 代表 分 子 B。 它 在 反应 
前 是 不 存在 的 。 同 时 ， 记 录 一 个 反应 时 间 。 如 下 一 个 产生 的 随机 数 是 304， 则 不 是 数 1， 而 
是 代表 惰性 分 子 的 0， 此 时 无 化 学 反应 发 生 。 仍 记录 一 个 反应 时 间 。 如 下 一 个 随机 数 是 另 一 
个 存 有 1 的 位 置 的 序号 数 ， 则 该 处 的 1 换 成 2， 又 记录 反应 时 间 ， 其 余 类 推 。 设 下 一 个 随机 
数 又 出 现 31， 此 时 31 处 已 是 2， 同 样 无 反应 发 生 ， 因 不 考虑 逆反 应 ， 同 时 记录 反应 时 间 。 

然后 对 模拟 过 程 进行 分 析 。 可 以 看 出 ,分子 A 即 数 字 1 被 选取 亦 即 发 生 反 应 的 概 
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率 ， 是 与 置 放 它 的 内 存 空间 及 A 的 个 数 有 关 的 。 通 常 可 按 类 似 处 理 一 级 单 分 子 反应 的 办 法 
对 这 个 模式 进行 数学 处 理 : 





— d1]/dN; —8[1] (8-6) 


X (8-600 左边 是 数字 1 被 2 取代 的 速度 ，N1 是 单位 时 间 内 程序 试图 找 出 1 的 次 数 ， 方 
括号 代表 相应 粒子 的 浓度 ，B 是 只 与 反应 “容器 ”大 小 有 关 的 概率 和 常数。 显然 ， 当 1 渐 为 2 
取代 时 ， 反 应 速度 会 下 降 。 

将 式 (8-60 积分 得 








In(L1]o/L1]) =N: (8-7) 


式 (8-0 中 的 L1jo 是 粒子 A 的 初始 “浓度 ”，[1j 为 其 在 时 间 上 的 浓度 ， 考 虑 到 式 
(8-5) 及 


[1] =a[A] 
可 以 写 出 
In(L A Jo/LA ]) =N: 
试 与 一 阶 速度 方程 比较 〈 速 率 常 数 ki) 
In(LA Jo/LA]) =kıt 
可 知 
BN1 =kit 
即 一 级 反应 速率 常数 与 时 间 的 乘积 ， 等 于 相应 概率 常数 乘 以 给 定时 间 内 程序 试图 寻找 该 粒子 
的 次 数 。 可 见 ， 一 级 反应 的 Monte Carlo 模拟 的 时 间 单 位 与 实际 反应 的 时 间 之 间 的 关系 是 很 
简明 的 。 
上 述 模式 易 推广 到 较 复杂 的 情况 ， 例 如 序 贯 反应 : 








kı k2 
A 一 ~ B—> C 


TUR HETT YA FR 
一 dLAJ/d =k: [A] (8-8a) 
— d[B]/dt =kı [A] — k:[B] (8-8b) 
— d[ C ]/dt =k: [B] (8-8c) 


当 : 上 一 0 时 ，[LA] = [Ajo, [Bl [Cjo 均 为 零 ， 由 此 可 得 
[A]—[A]oexpC— £12) 

[B]= GLA o/ G2 — ki) )LexpC— kit) —expC— 212] 

[C]-[A]o (13- [1/( 2 — 1? ][&zexpC— 12) —&iexpC—£222]) 


可 见 ， 此 例 的 微分 方程 仍 是 可 解 的 ， 虽然 情况 已 较 上 一 例 复杂 。 现 考察 如 何 用 Monte 
Carlo 方法 模拟 ， 以 数字 1 代表 A. BUE 2 代表 B， 仍 以 计算 机 的 内 存 作 反应 “容器 "， 将 数 
字 存 储 于 其 中 ， 显 然 ， 开 始 时 仍 只 需 存 放 数字 1 。 
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—d [1] /dNi1=B1 [1] 
—d [2] /dN;,=B, [2] 


由 于 8 、p: 均 只 与 反应 “容器 ”大 小 有 关 ， 这 里 涉及 的 是 同一 容器 ， 故 二 者 相等 ， 记 
为 6， 将 上 述 两 式 积分 ， 并 采用 与 上 例 相 同 思路 ， 易 得 


BNi1-—hit 

















BN» —kst 
二 式 相 除 得 
Nı/N2=k;/k2 


此 式 指 出 一 个 重要 的 事实 : 用 Monte Carlo 方法 模拟 两 个 一 级 反应 时 ， 两 个 反应 应 按 其 
速率 常数 值 的 比例 进行 模拟 试验 。 即 寻找 1 与 2 的 次 数 之 比 应 等 于 两 个 反应 速率 常数 之 比 。 
对 于 较 快 的 〈 速 率 常 数 大 ) 的 反应 ， 应 在 单位 时 间 内 多 模拟 试验 ， 这 样 模拟 才能 反映 客观 情 
况 。 例 如 ， 序 贯 反应 


























ki17—4.0 k276.0 
» 


A B >C 


由 A 转化 为 B 较 由 也 转化 为 C 慢 ， 这 在 模拟 时 应 体现 出 来 。 进 行 这 种 模拟 可 用 不 同 的 
方法 ， 这 里 先 介绍 一 种 早期 文献 中 介绍 的 方法 ， 其 思路 有 助 于 理解 Monte Carlo 方法 的 基本 
原理 。 找 出 &1 和 2 的 最 大 公约 数 ， 它 们 的 最 大 公约 数 为 2.0， 就 以 2.0 为 计数 单位 进行 模 
拟 。 由 于 每 模拟 A 一 B 反应 两 次 ， 应 模拟 B—C 反应 三 次 ， 可 设置 一 个 计数 器 SN， 先 今 
SN 三 2.0， 然 后 检查 SN 及 是 否 成 立 。 本 例 中 2. 0x4. 0 £112. 0:6. 0 均 成 立 ， 将 两 个 反应 
各 模拟 试验 一 次 ; 然后 ， 令 SN 增值 ， 加 2.0 得 SN=4.0, 再 检查 SN 过 ;是 否 成 立 ， 本 
例 均 仍 成 立 ， 再 将 两 个 反应 各 模拟 一 次 ; 再 令 SN 增值 ， 加 2.0 得 SN=6.0， 此 时 ，SN 达 
k ERREZ, 停止 模拟 A— B 反应 ， 只 模拟 B>C 反应 一 次 ， 如 此 下 去 ， 每 次 检查 SN 
max(k;) 是 否 成 立 ， 如 此 式 成 立 ， 继 续 令 SN 增值 ; 如 SN 已 等 于 或 大 于 ;中 数值 最 大 者 ， 
则 记录 一 次 反应 时 间 。 用 这 样 的 方法 ,能 实现 在 单位 时 间 内 ,使 ;大 的 反应 模拟 次 数 较 多 ， 
定量 地 反映 出 反应 速率 不 同时 的 客观 事实 。 用 此 Monte Carlo 方法 模拟 序 贯 反 应 ， 所 得 结果 
与 解 微分 方程 法 一 致 。 用 同样 的 原理 模拟 可 逆反 应 、 二 级 反应 及 复杂 的 反应 ， 都 能 得 到 正确 
的 结果 。 将 该 法 用 于 离子 电极 跟踪 的 催化 动力 学 反应 [581 ， 取 得 了 有 价值 的 结果 。 


三 、 适 用 于 所 有 均 相 化 学 反应 体系 的 Monte Carlo 计算 机 模拟 方法 


以 上 介绍 的 模拟 方法 很 直观 ， 容 易 理 解 ， 但 也 存在 一 些 弱 点 ， 如 对 于 稍 复杂 的 反应 ， 用 
数组 来 存储 反应 粒子 所 需 内 存 要 大 ， 另 外 ， 模 拟 复 杂 反 应 时 ， 简 单 从 数组 中 取 活 性 粒子 〈 反 
应 物 ) 或 惰性 粒子 〈 洲 剂 或 惰性 化 合 物 ) 来 机 械 式 地 模拟 化 学 反应 所 花 时 间 也 长 。 为 此 ， 
Gillespie 根据 将 化 学 反应 过 程 认 作 随 机 过 程 的 假设 ,提出 了 颇 独 到 的 新 算法 [ 沾 ， 本 书 作者 
在 此 法 的 基础 上 ， 提 出 一 种 适用 于 所 有 均 相 化 学 反应 体系 的 Monte Carlo 计算 机 模拟 方 
法 DJ] ， 现 将 其 介绍 如 下 。 

《一 ) 算法 的 基本 原理 

将 计算 机 内 存 认 作 一 反应 器 ， 其 中 存储 了 各 物种 的 浓度 ， 发 生 一 次 化 学 反应 ， 对 应 的 反 
应 物 或 生成 物 就 分 别 减少 或 增加 一 计算 机 单位 浓度 ， 计 算 机 记录 这 一 变化 的 同时 记录 下 反应 
所 需 时 间 ， 为 此 需 解决 : 对 于 存在 n 种 物种 与 m 条 反应 通路 的 反应 体系 ， 在 下 一 时 刻 是 
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哪 一 个 反应 发 生 ? 包 发 生 反应 需 多 少时 间 ? 有 无 几乎 同时 发 生 的 其 他 反应 ? 如 有 ， 在 模拟 中 
如 何 体现 ? 

1. 有 效 碰 撞 与 分 支 反应 

从 反应 速率 的 碰撞 理论 可 知 ， 一 均 相 化 学 反应 分 六 1， 




















| 
速率 (dca /di) 完全 由 其 反应 分 子 的 有 效 碰撞 数 a(i) 所 确定 ， 即 
dca /dt=kc cg a (i) 
如 体系 中 存在 m 个 分 支 ， 则 各 分 支 反 应 的 速率 应 与 其 有 效 碰撞 数 一 致 。 设 计算 机 每 次 
反应 的 分 子 数 一 定 ， 则 在 计算 机 模拟 中 下 一 时 刻 最 大 可 能 发 生 反 应 的 应 是 有 效 碰撞 数 最 大 的 


分 支 反 应 。 令 计算 机 的 模拟 过 程 为 一 Markov 随机 过 程 ， 其 游 走 由 时 刻 上 体系 发 生 第 ; 分 支 
反应 的 概率 P(i |) 决定。 显然， 


Pi | t)=a(i)/ao 


























其 中 


ao= D aG); DPGID=1 G=1, 2, =, m) 
1 一 1 i=l 


模拟 中 可 产生 一 个 C0. D 区 间 均 匀 分 布 的 随机 数 ~， 如 有 下 列 关 系 成 立 : 





SPa ID <r SPa |021 (s=0, 1, 2, , m—1) 


i=0 


式 中 , PG |O 当 i 二 0 时 定义 为 零 ， 则 计算 机 进行 第 〈* 十 1) 分 支 反 应 。 

2. 反应 时 间 

CD 计算 机 “反应 时 间 ?” RM UR ad 在 模拟 中 ， 需 假设 一 最 低 反 应 浓度 ， 
如 所 模拟 的 反应 精度 要 求 高 ， 可 将 此 值 定 小 些 ， 反 之 可 定 大 些 。 

设 进行 计算 机 模拟 的 最 低 反 应 浓度 为 即 


LM] —sE La] — Le leas — Lae] 
RE, Lx] 表示 反应 物 时 取 负 号 ， 表 示 生 成 物 时 取 正 号 ， 以 保证 [M] 和 恒 为 正 值 。 确 
定 了 最 低 反 应 浓度 即 可 算出 一 次 反应 所 需 时 间 Az : 
At —[M ]/CGec acp) 
如 反应 体系 存在 有 m 个 反应 分 支 ， 则 计算 机 每 进行 一 个 分 支 反 应 所 需 时 间 为 
At; =[M ]/aG) 
(2) 偶合 反应 体系 的 “计算 机 时 间 ” 与 实际 反应 时 间 的 换算 ”对 于 稍 复杂 的 化 学 反应 体 
系 ， 大 都 存在 几 个 分 支 反 应 ， 而 在 计算 机 模拟 中 ， 每 次 只 能 进行 一 种 反应 。 如 何 将 此 情况 的 
计算 机 时 间 正 确 地 换算 成 为 实际 体系 进行 反应 所 需 时 间 是 实现 该 模拟 算法 的 关键 。 根 据 Os- 
twood 反应 独立 共存 原理 0 ， 即 任 一 反应 的 速率 与 其 他 反应 的 存在 无 关 ， 存 在 多 分 支 反 应 
时 ， 每 一 瞬间 应 有 m 个 分 支 反 应 几乎 同时 发 生 ， 可 分 以 下 两 种 情况 进行 讨论 。 
CD 设 在 反应 体系 中 同时 存在 m 个 分 支 反 应 ， 经 ?7 次 计算 机 进行 的 化 学 反应 后 ，m 个 分 
文 各 自 所 需 时 间 为 : 
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t; =n; At; =n;[M]/ali) (G1. 2, =, m) 

NP, n 表示 在 总 数 为 n 次 计算 机 模拟 反应 中 第 i 分支 反应 所 发 生 反 应 的 次 数 ， 有 
Zn;=n;a(l)= kic, jCxk 5 4a(2) OC ; …， 如 存在 偶合 ， 则 有 下 标 G, k, L, 
m, =) 中 任意 两 个 相等 的 情况 。 意 到 nn; cP(i |), WAA (8-9) 成 立 

ni/a(l) ~ ng/a(2) 22 ** Tn/a mom 10 Tn,/al(m) (8-9) 
实际 模拟 时 ， 取 2LMJ/aGD)G —1. 2. =, mo 的 均值 作为 进行 了 n 次 计算 机 模拟 之 实际 





反应 所 需 时 间 。 

€) 如 在 反应 体系 中 还 存在 连 串 反应 或 自 催化 反应 ， 且 它们 之 间 的 速率 常数 相当 悬殊 ， 
则 在 计算 平均 时 间 时 需 删 去 一 些 分 支 反应 的 时 间 ， 并 认为 此 时 体系 的 反应 时 间 应 完全 由 其 反 
应 速率 的 决定 步 又 来 决定 。 如 有 反应 : 








kipp 4 
ki I» n j 
a +b >c; c +a >d k > kı 

ERA c P BS E AA HH RAL MRE BERT n, /a CD) 5 n/a (2) 不 
可 能 近似 相等 。 因 在 复杂 反应 体系 中 上 述 情况 普遍 存在 ， 故 计算 反应 体系 的 实际 反应 时 间 
时 ， 不 能 对 所 有 的 分 支 反 应 时 间 同 等 对 待 ， 而 应 先 剔 除 某 些 分 支 反 应 时 间 很 小 的 值 ， 再 对 番 
下 的 分 支 反 应 时 间 取 均值 。 

(二 ) 模拟 算法 

模拟 算法 由 下 述 步骤 组 成 : 

第 一 步 : 输入 反应 体系 的 所 有 速率 常数 及 各 物种 的 初始 浓度 。 赋 EBORE. 

第 二 步 : 赋 各 个 分 支 反 应 时 间 万 G1. 2. 0. m) 初 值 为 零 。 

第 三 步 : 赋 n 初 值 为 零 。 此 步 的 意义 是 使 每 次 输出 数据 时 ， 至 少 进行 了 500 次 ， 以 保 
证 必要 的 计算 精度 。 

第 四 步 : 计算 游 走 概率 PG —1. 2. 8. m), PE O, 1) 区 间 均 匀 分 布 的 伪 随 机 
数 ， 根 据 随机 数 来 决定 下 一 步 反 应 的 进行 。 

第 五 步 : 进行 第 i 个 分 支 反 应 ， 并 计算 该 反应 进行 所 需 时 间 。 如 果 n KF 500， 用 子 程 
序 吻 除非 决定 步骤 的 分 支 反 应 时 间 ， 然后 计算 上 平均， 如 此 时 好 邓 均 六 0.1s， 则 此 时 输出 各 物 
种 浓度 值 ， 和 否则 返回 第 三 步 继续 运算 ， 直 至 :之 0. ls 时 输出 数据 ， 输 出 数据 后 返回 第 四 
步 ， 如 此 往返 。 

第 六 步 : 比较 i 是否 达 到 所 要 求 的 反应 时 间 ， 如 未 达到 ， 返 回 第 二 步 ， 直 至 i 达到 所 
要 求 的 反应 时 间 twsx 时 则 停止 

计算 机 模拟 程序 框图 示 于 图 8-1。 

用 此 法 对 著名 的 Belosov-Zhabotinsky 化 学 振荡 反应 的 Oregonator 模型 [12] 进行 了 模拟 ， 
获得 满意 结果 [1J 。 值 得 指出 的 是 ， 仅 用 模拟 方法 不 能 对 有 关 反 应 机 理 做 出 最 后 肯定 的 判别 ， 
模拟 方法 能 发 现 有 的 假设 的 机 理 与 实验 结果 不 符 ， 从 而 否定 这 种 假设 。 但 在 模拟 预测 的 结果 
与 实验 一 致 时 ， 应 进一步 作 深 入 的 研究 ， 例 如 ， 设 法 找 出 有 关中 间 产 物 的 直接 实验 证 据 。 


、 误 差分 析 的 Monte Carlo 模拟 算法 


任何 化 学 量 测 技术 与 相应 数据 处理 步骤 均 涉 及 误差 问题 ， 误 差 的 大 小 和 不 同 分 布 对 分 析 
结果 将 产生 重要 影响 。 各 种 仪器 的 误差 的 不 同 特性 和 大 小 原则 上 可 通过 实验 的 方法 ， 即 通过 

















































































































tyy AF 






输入 速度 常 


(i) 
































计算 a(i) ali) cG)XAX E 1.2, m) 

ay6 $ a()p,6 allay (111,2, m) 
i 

PEEN atl; naonatl 


WUEI-L2, m 


nili 


数 c(i) 


输入 初始 浓度 x 


,nn ORO, um) 











机 数字 模拟 法 


611 | 





















































算 反 应 时 间 : 
[M] 


|o [irens 
进行 (1) 分 支 反应 ， | 并 计算 反应 时 间 : 


(KH) eH) 


反应 ， 
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化 学 动力 学 Monte Carlo 模拟 程序 框图 





反复 分 析 已 知 试 样 或 标 样 来 获得 ， 但 此 法 耗 财 费时 ， 且 不 易 分 别 查 明 各 个 环节 与 因素 是 怎样 
通过 误差 来 影响 分 析 结 果 的 ， 此 时 ， 如 采用 计算 机 模拟 方法 就 显得 | 
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行 (oO 分支 反应 ， 
并 计算 反应 时 间 : 


t(m)-t(m)* m 














a(m) 
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可 以 模拟 各 种 不 同 分 布 的 误差 将 怎样 影响 结果 ， 而 且 还 可 考察 出 测量 过 程 中 任意 步骤 对 结 
的 影响 的 大 小 。 前 节 介 绍 的 随机 数 产 生 技术 ， 为 计算 机 模拟 误差 分 析 提 供 了 有 力 手段 。 下 以 





离子 选择 性 电极 两 次 加 入 法 0] 为 例 来 加 以 具体 说 明 。 


























不 少 评论 家 认为 这 一 方法 误差 太 大 。 此 法 的 要 点 是 : 先 用 选 定 的 离子 电极 测试 


dax (浓度 c*) 的 试 液 


E; 5E, +slglc+) 
作 标 准 加 入 ,使 cx 增加 Aci 及 Acs* ， 每 次 加 入 后 测试 电位 值 : 


E, —E, 


- slgCc. d 





E: —E;,d 


Ac) 





- slgCc. d 


F Aci + Acs) 








a 


待 测 离 


(8-10) 


(8-11) 


(8-12) 


A, E; G—1, 2) 为 测 得 的 电位 值 ; 五 ,是 电极 标准 电位 ; s 是 电极 的 斜率 。 合 并 式 


(8-100 — X (8-12), f& 


(Eg — Ei)lg[ Cc} Aei)fes |] — (E1 — Eo)lgL eg 十 Acl 十 Acs)/cv ] =0 


(8-13) 
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对 式 (8-13) 难以 求 得 显 式 解 ， 现 用 Monte Carlo 模拟 法 对 此 式 进行 考察 。 作 标准 加 入 测定 
时 ， 标 准 液 浓度 的 误差 、 容 器 误差 等 实验 误差 及 量 测 Eu 、 巨 ; 、2 的 测试 误差 ， 均 会 影响 分 
析 结 果 。 现 分 成 几 步 一 一 模拟 。 

O 首先 ， 产 生 正 态 分 布 的 随机 数 (Aci)N 及 (Acy)N， 令 其 均值 相应 为 Acl 、Acs。， 相 对 
标准 偏差 为 RSD。 ， 此 相对 标准 偏差 表征 了 Ac; 的 误差， 主要 由 容器 误差 造成 。 

© 用 设 定 的 cx 和 随机 产生 的 正 态 分 布 的 随机 数 Acin 及 (Acs)nN ， 借 前 述 式 子 计 算 
Eo、E1、2， 显 然 ，Eo 是 对 应 于 给 定 的 c; 值 的 理论 电位 值 ， 而 1、 万 ;中 已 包含 Aci1 及 Ac， 
的 误差 。 由 此 计算 得 到 的 Eo. Ei. E2fBt P —GPE BEES HI. 

O 产生 正 态 分 布 的 随机 数 (Eo)N、 (EiD)N 及 (Es)n， 令 其 均值 相应 为 前 一 步 计 算 的 
Fo。、F1、，， 标 准 差 为 o&。 这 里 ,为 了 简化 模拟 ， 设 所 有 电位 量 测 误差 cf 相同 ， 但 也 可 
在 模拟 时 给 定 不 同 的 os， 例如 测量 6 时 ， 浓 度 较 测量 1、E2 时 低 ， 可 能 Eo 的 测量 相对 误 
差 较 大 。 

注意 : @、@ 步 模拟 了 Ac i 的 误差 传递 到 Ei. El1 又 有 本 身 误差 Ac; 的 误差 传递 到 E, 
;又 有 其 本 身 误差 ,下 一 步 将 传递 到 计算 上 去 。 

DH (Eo), (ŒI) K E) RAR 8-13) PEX Eo, Ei, Eff, HAc, KAC HI 
标 称 值 代入 式 (8-13) P, HH Newton-Raphson 法 求解 式 (8-13)， 这 一 步 模拟 得 到 的 是 
(cv)N。 这 里 Ac; 及 Ac, 用 的 是 实验 中 所 取 的 标 称 值 ， 而 不 是 加 入 了 误差 的 模拟 值 ， 这 是 因为 
在 实际 的 二 次 标准 加 入 法 计算 中 就 是 这 样 做 的 。 

C 将 中 一 由 步 重 复 多 次 ， 例 如 500 次 ,计算 (ec,)n 的 相对 标准 偏差 RSD。 所 得 的 500 
个 数据 可 给 出 CEN. CE) u^. COENA (ci)n 的 分 布 图 。(Eo)N、(E1)N、(Es)N 自 然 是 
服从 正 态 分 布 的 ， 模 拟 结果 表明 ，(cz )N 亦 确 是 服从 正 态 分 布 的 。 如 取 ci. co 的 相对 标准 偏 
差 RSDA 为 0.7%， 电位 测量 误差 0. lmV， 取 未 知 浓度 为 cv 三 10.0，Aci 王 10.0，Ac; = 
40.0. f$ RSD—3. 396, BUBCKBU Ac, /cx 与 Ay/Aci 值 可 增加 精密 度 ， 使 cv 的 相对 标准 偏差 
RSD 最 低 可 达 1.5%。 但 用 这 一 方法 有 一 定 限 度 ， 因 Acl Aco 取得 过 大 ， 将 使 二 次 标准 加 
入 法 的 一 些 基 本 前 提 不 再 成 立 ， 这 些 前 提 是 加 入 Acl Ac 后 体系 的 离子 强度 等 条 件 无 显著 
变化 ， 离 子 活 度 系数 及 电极 的 参量 E. s 无 变化 。 

Monte Carlo 方法 不 仅 可 用 于 化 学 量 测 误差 的 模拟 ， 还 可 用 于 许多 化 学 计量 学 算法 本 身 
特性 的 考察 ， 目 前 很 多 新 方法 的 发 展 大 都 需 用 Monte Carlo 法 先进 行 模拟 研究 的 原因 就 在 于 
此 。 用 Monte Carlo 模拟 方法 研究 因子 分 析 中 主 成 分 数 的 一 些 判别 标准 的 特性 也 是 一 例 吕 9。 
AK Monte Carlo 方法 及 其 应 用 的 详细 介绍 ， 读 者 可 参阅 文献 [15]， 该 书 对 此 给 出 了 很 好 
的 前 述 。 






















































































第 二 节 ”基于 微分 方程 数字 解法 的 计算 机 模拟 方法 


以 化 学 动力 学 系统 为 例 。 一 个 化 学 体系 的 动力 学 特征 一 般 都 可 由 一 组 常 微分 方程 来 表 
征 ， 所 以 ， 如 果 需 深入 了 解 这 个 化 学 体系 的 动态 过 程 ， 一 般 是 对 该 常 微分 方程 组 直接 求解 。 
然而 ， 能 精确 求解 的 微分 方程 是 寥寥 无 几 的 ， 所 以 我 们 常常 希望 求 近 似 的 数值 解 。 本 节 将 介 
绍 的 就 是 这 样 一 些 常 用 的 数值 求解 常 微分 方程 的 方法 。 这 些 方法 的 基本 思路 是 将 时 间 变 量 离 
散 化 ， 即 产生 一 离散 点 序列 tos tis [25 fas co URZEKH hn =t, tn 。 然 后 ， 在 每 
一 点 t， 处， 用 先前 求 得 的 值 计 算 ， 并 用 该 计算 值 作为 该 时 间 点 解 的 近似 值 。 这 样 的 方法 在 
微分 方程 数值 解 方 法 中 称 为 逐步 法 (也 称 差 分 法 或 离散 变量 法 )。 差 分 法 提供 了 一 个 利用 
个 先前 得 到 的 数值 yos Yn- Ya-oo tU Ynt KIE yn EM, A k 步 法 。 如 果 
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& 王 1， 则 是 单 步 法 ， 如 果 & 六 1， 则 是 多 步 法 。 
欧 拉 法 是 最 简单 的 单 步 法 。 在 欧 拉 法 中 ，y, 1 的 值 由 前 一 点 的 值 y, 直线 外 推 求 得 。 考 
虑 单个 方程 





dy/dt—y'—f (y, t) 


假设 给 定 初 值 y(to) — yos KE, y G4 的 近似 值 y1 就 可 以 利用 y Go) 处 的 台 劳 级 数 展开 式 
的 前 两 项 求 得 ， 即 


yi) 29 y; —yoc hof yos to) 
然后 ， 令 tst 十 h1， 并 计算 
Ya) X yg — yi Fhif Wi» tı) 
按 此 法 则 继续 下 去 。 于 是 ， 一 般 形 式 有 
yaH = yn haf yas ta) 


尽管 求 常 微分 方程 的 数值 解 的 方法 很 多 ， 但 它们 通常 都 能 归 入 以 下 介绍 的 方法 中 的 一 种 。 下 
面 ， 将 对 常用 的 微分 方程 数值 解法 以 其 不 同 特性 为 线索 加 以 简要 介绍 。 
































1. 台 劳 级 数 法 
如 果 解 y(z) 是 光滑 的 ， 那 么 它 就 具有 以 下 的 台 劳 级 数 展开 式 : 
yah) —yG) -- hdy/dt i (2/21 )(dy?/dt?) +- (8-14) 














前 述 的 欧 拉 法 可 以 看 作 一 种 取 台 劳 级 数 前 两 项 的 近似 方法 。 如 果 能 求 得 y 的 高 阶 导 数 ， 即 
yan =y T hy, (G2/21 ) + (3/31 Jy E E OP / p Y Oy CP? (8-15) 
UB. ys. yn Jy UO? 分 别 表示 解 函数 y(t) 在 第 nn 个 离散 点 时 的 一 阶 、 二 阶 及 p 阶 导 
数 。 那 么 ， 利 用 式 (8-15) 就 可 以 得 到 p 阶 方法 。 局 部 离散 误差 可 以 根据 舍 去 的 第 一 项 来 
估计 ， 步 长 也 可 由 此 选 定 。 对 于 光滑 可 微 解 函数 ， 台 劳 级 数 方法 一 般 来 说 是 很 有 效 的 。 
2. 龙 格 - 库 塔 法 
龙 格 - 库 塔 法 为 近似 的 台 劳 级 数 法 ， 它 只 需 知道 一 阶 导数 而 无 须 明确 定义 或 计算 其 他 阶 
导数 。 近 似 值 由 若干 次 函数 求 值 得 到 。 经 典 的 四 阶 龙 格 - 库 塔 法 由 式 (8-16) 给 出 : 
you =y, 十 1/6(ko 十 281 十 2k2 十 k3) (8-16) 











式 中 
ko =hf(y, sta) 


ki =hf Cy, +1/2 kost, +1/2 h) 





ka =hf (y, +1/2 kist, +1/2 h) 





ka —hf Cy, d- bo st, +h) 


注意 ， 对 于 每 一 步 必须 求 函数 f Cy 0). 的 值 四 次 。 
X a> 时 ， 经典 的 四 阶 龙 格 - 库 塔 法 通过 阶 为 h! 的 各 项 渐 近 地 与 台 劳 级 数 法 相 吻 合 。 
然而 ， 没 有 任何 对 局 部 离散 误差 的 估计 来 确定 步 长 。 龙 格 - 库 塔 法 有 几 个 优点 。 它 编程 容易 
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且 对 很 大 一 类 问题 数值 计算 稳定 。 因 为 该 法 只 需要 一 个 解 y, 就 能 算出 y,+1， 所 以 这 种 方法 


能 自动 起 步 ， 步 长 iv 在 计算 过 程 的 每 一 步 都 可 改变 。 对 于 龙 格 - 库 塔 法 曾 作 过 不 少 改 进 ， 以 
提高 其 精度 ， 在 此 介绍 一 个 五 阶 方法 [5151 。 





五 阶 龙 格 - 库 塔 法 的 计算 公式 : 























Yan 7 ya T À/192C(235; 4-125535 — 81k; + 12554) (8-17) 
式 中 
kbi—fCy,s t2 
ks=f(y, T h/3 ki, t,-h/3) 
ka— f Cy, -h/25C(4k 1-652). t, - 2h /5) 
ka fy" Fh/ACG1—102hk2 15830. t, +h) 
ks=f(y, +h/81(6kı 90k: —50ks -8b 42, t, 7-2h /3) 
ks f Gy, +h/75(6kı +36k2 +10ks - 8b 42. t, H4h/5) 
3. 多 步 法 








上 述 所 讨论 的 方法 都 是 仅 通 过 取决 于 i 、y; MER hn BS ER OKT SE y,+1 值 的 。 显 然 ， 
车 利用 先前 求 得 的 点 的 信息 ， 即 yi yao Yasso UU facis fn=z> fasso 1e MEI 
以 得 到 更 好 的 精度 [在 此 , fCy D 一 dy/d 二 yj」。 基 于 这 种 想法 的 多 步 法 是 非常 有 效 的 。 
相对 于 单 步 法 来 说 ， 当 要 求 精 度 高 时 ， 它 常常 只 需要 较 小 的 工作 量 ， 而且 很 容易 获得 截 尾 误 
差 的 估计 ， 如 果 程 序 设 计 得 恰当 、 人 合理， 那么 多 步 法 能 够 不 改变 hh 值 而 在 任意 点 有 效 地 输 
出 结果 。 这 一 方法 的 阶 可 以 自动 选择 和 动态 改变 ， 从 而 提供 了 一 种 能 处 理 范 围 很 广 的 问题 的 
方法 。 刚 性 方程 〈 见 后 述 讨论 ) 也 可 用 某 些 多 步 法 来 处 理 ， 多 步 法 还 能 对 方程 自动 地 进行 刚 
性 与 非 刚 性 分 类 。 值 得 指出 的 是 ， 得 到 这 些 优 点 是 以 程序 的 复杂 性 和 在 某 些 情况 下 数值 不 稳 
定 为 代价 的 。 

线性 多 步 法 可 以 认为 是 公式 (8-18) 






































k k 
Yn — aue c XBi fapa (8-18) 
i=l 


的 特殊 情况 。 这 里 , & 是 一 个 确定 的 整数 ，a; 或 8 不 为 0， 该 公式 定义 了 一 般 线 性 & 步 法 。 
这 一 方法 之 所 以 称 为 线性 的 ， 是 因为 上 面 的 多 步 法 公式 是 广 的 线性 函数 ， 而 上 本 身 则 可 能 
是 也 可 能 不 是 它 的 自 变 量 的 线性 函数 。 

在 这 个 方法 “启动 ”以 后 ， 每 一 步 都 根据 已 知 值 yj; 1 ，>y，，*，…，y AH 和 ofa-is 
fu-25 fuas t5 fa-ti XIF y, 41 的 值 。 如 果 Bo 二 0， 则 这 种 方法 是 一 种 显 式 方法 ， 计 
算是 直接 的 。 大 po 和 0， 则 这 种 方法 是 一 种 隐 式 方法 ， 因 为 它 需要 f ;+i 的 值 方 能 得 yi. 
如 隐 式 具有 更 多 的 所 要 求 的 特性 ， 应 用 隐 式 方法 时 存在 较 大 的 困难 也 是 理所当然 的 。 

通常 ， 在 求解 的 每 一 步 都 使 用 两 种 多 步 法 。 首 先 使 用 显 式 法 进行 预报 ， 然 后 再 运用 一 次 
或 多 次 隐 式 法 加 以 校正 一 一 因此 被 称 为 预报 -校正 法 。 预 报 -校正 法 的 一 个 很 好 的 例子 是 四 阶 
Adams H], 









































预报 : ynpi = y, T h/24€55f, —59f 421-37 f 4—2 —9 f 4-3) (8-19) 








ERE: yaíi—ya4h/2409 f 441-19 f 4 —5f a-i fa- (8-20) 
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这 两 个 公式 都 是 四 阶 的 。 注 意 到 多 步 法 需 运 用 前 儿 个 计算 值 才 能 进行 计算 ， 所 以 ， 在 实 
际 编程 时 ， 大 都 采用 龙 格 - 库 塔 法 起 步 ， 计 算 三 步 后 ， 再 采用 上 述 两 个 公式 进行 多 步 法 计算 。 
另 一 个 多 步 法 的 例子 是 定 步 长 哈 明 (Hamming) 方法 HS] ， 其 计算 公式 如 下 : 


ya Cai d- 9/1216 p a d cs (8-21) 











式 中 
Pai Ya 8^ /3Cf, Ffa faa) 
caH 71/8(9y, 一 yo d 3h Lf Gru d 2fs — fad) 


ra 7 Pau d 112/121Cp, — c,) 





E] Adams 法 ， 也 可 采用 龙 格 - 库 塔 法 起 步 ， 计 算 三 步 后 ， 再 采用 上 述 公 式 进 行 多 步 法 计算 。 
4. 刚性 方程 的 吉尔 法 
刚性 方程 是 一 类 很 特殊 的 微分 方程 ， 因 其 很 难 用 一 般 的 微分 方程 的 数值 解法 来 解 ， 故 一 
直 是 微分 方程 解法 研究 的 一 个 重点 问题 ， 有 效 的 方法 还 推 Gear 法 CFRE, WFN 
程 组 


























y =dy/dt=f(t,y)=f (8-22) 
式 中 
yı fa 
ge 33 gu " 
Yn f» 
则 微分 方程 组 的 解 的 稳定 性 与 雅 可 比 和 矩阵 of /oy 的 特征 值 有 关 。 人 例如， 考察 
fı =dyı/dt —998y, 十 1998y， (8-23a) 
f2 —dys/dt ——999y, —1999y, (8-23b) 


MEn EIERE of /9y 为 


of/ey— 


Ə fı/Əyı 9f1/9y; 998 1998 
E (8-24) 


Ofs/Oy, Ofs/Oy;| |—999 — 1999 

它 的 特征 值 是 一 1 和 一 1000。 如 果 y; (0 =y?*(0) 王 1， 则 此 微分 方程 组 (8-230 的 解析 解 为 
yi =4e™ — 3e 1000 
ya = 一 2e + 3e- 1000 

即 经 过 一 段 很 短 的 时 间 后 ， 解 就 非常 接近 于 











Y] 一 4e 
ya 一 一 2e 7! 


如 z>0.01 时 ，yi=4e 9^9, y;——2e 90， 两 个 解 都 接近 于 零 了 。 如 果 采 用 欧 拉 法 解 此 
微分 方程 组 ， 则 其 离散 解 可 写成 
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Yisskpy4 a.d 5089894, 1998 y2, n) 

Y2, cr o Wa n FAC 99834; 47 199995. 1) 
如 在 此 仍 取 y, C0) — y, (0) —1. A —0.01. ME 

y1.1 =1 +0.01 X (998 4- 1998) — 30. 96 

















ys 71 +0. 01 X (— 999 — 1999) = — 28. 98 


再 继续 积分 几 步 ， 其 结果 将 变 得 更 加 糟糕 。 此 时 ， 可 通过 较 小 的 值 而 使 问题 得 到 部 分 改 
善 ， 但 最 终 将 由 于 舍 信 和 截断 误差 的 充分 积累 而 得 到 男 一 种 不 稳 的 结果 。 因 此 ， 前 述 的 大 多 
数 标准 方法 都 不 太 适 合 解 刚性 方程 。 

可 是 ,在 化 学 动力 学 的 研究 中 ， 很 多 微分 方程 还 属于 刚性 方程 的 范畴 ， 如 一 些 含有 自 催 
化 过 程 的 复杂 反应 、 化 学 振荡 反应 等 ， 其 微分 方程 组 大 都 属于 刚性 方程 之 列 [20J， 所 以 ， 关 
于 刚性 方程 的 数值 解法 还 有 必要 在 此 介绍 。 

考虑 如 式 (8-22) 所 示 的 常 微分 方程 组 的 初 值 问题 ， 记 


Zi, =[ y, „hyi sees ha / Dy$o 


可 知 Zi 是 一 个 (g 十 1) X n 的 和 矩阵。 
对 于 Adams 预 估 -校正 方法 的 计算 公式 为 : 


Z$ =PZ; (8-25a) 






























































Zín1? —PZím —d[Ahf G4, yT P) —hf pyp] Gn —1,2,.M) (8-25b) 
Z+ — PZ(M) (8-250) 
式 中 , P 是 (g 十 1)X(g 十 1]) 阶 的 帕斯卡 耳 (Pascal) 三 角 和 矩阵 ,其 元 素 为 
pij =C} (Qj >i =>0) 
M 为 迭代 次 数 ， 一 般 可 取 3。 向 量 d 为 
d=[do,do, dy] 


一 个 预 置 值 的 常数 向 量 ， 因 方法 不 同 而 预 置 值 不 同 。 

KAF GL. yim P) hf Ct,» yi? 0] g— Aa Xn) Er Burm. Br. d [Af Ct. 
yi" D)—hf Gy» yi?) ]' 就 是 一 个 (gq 十 1) Xn 的 和 矩阵 。 

刚性 方法 的 计算 公式 为 : 


Zi9?1-—PZ; (8-262) 


























Zi? —PZje —d (GA f Gi yf" ) hf Ga yi] Gi —1,2,3, MD. (8-26b) 
Zi —PZÍND (8-26c) 
式 中 , P, d, M, ZB HB. 但是, G—[diI —doCof/8y)]? . 其 中 I 为 
aXn) 阶 的 单位 矩阵 ，(aj7/ay) BIAT KIMET HEEE, AX Gear 方法 的 Fortran 子 程序 
可 参阅 文献 L5]， 在 此 不 再 详 述 
第 三 节 电化 学 过 程 的 数字 模拟 


电化 学 包括 电 分 析 化 学 中 的 许多 复杂 电极 过 程 是 数字 模拟 的 研究 对 象 ， 用 模拟 方法 研究 
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电化 学 传输 过 程 已 有 较 长 的 历史 。 电 化 学 传输 过 程 中 涉及 的 最 基本 的 关系 式 是 Fick 第 二 定 
律 表述 的 扩散 方程 : 





Adc/9t = D9?c/8x? (8-27) 


KP, c 为 浓度 ; x 为 位 移 。 这 是 传 里 叶 研究 的 热传导 方程 的 一 个 应 用 方面 ， 是 抛物 型 
的 二 阶 偏 微分 方程 。 由 于 电化 学 过 程 中 还 涉及 对 流 、 均 相 的 或 非 均 相 的 化 学 反应 等 引起 的 浓 
度 变化 的 复杂 因素 ， 用 解析 法 来 求解 得 到 的 偏 微分 方程 极为 困难 ， 所 以 ， 数 字模 拟 是 获取 答 
案 的 重要 方法 。 解 这 类 描述 电化 学 过 程 的 偏 微分 方程 一 个 基本 的 方法 是 有 限 差 分 法 。 
Feldberg 等 最 早 研 究 用 计算 机 进行 电化 学 过 程 的 数字 模拟 [24， 他 撰写 的 有 关 《 数 字模 
拟 一 一 解 电化 学 扩散 动力 学 问题 的 通用 解法 》 论 文中 ， 是 这 一 领域 的 经 典 著作 。 本 节 将 简 
ft Feldberg 提出 的 “ 箱 法 ”及 Britz 发 展 的 “点 法 ”， 而 且 ， 本 节 的 叙述 只 介绍 有 关 方 法 的 
基本 思路 ， 对 于 一 些 细节 ， 可 参阅 Britz 撰写 的 有 关 电 化 学 中 数字 模拟 的 专著 [23]。 

对 电化 学 过 程 考察 式 (8-27)， 首 先 涉 及 的 问题 是 以 电极 表面 为 起 点 ， 计 算 溶 液 中 距 电 
极 表面 不 同 距 离 x 处 在 给 定时 间 上 时 有 关 物 质 的 浓度 。 由 于 用 解析 方法 求解 有 关 偏 微分 方程 
极为 困难 ， 试 模拟 物质 由 电极 表面 到 溶液 中 的 实际 扩散 等 过 程 。 这 里 将 以 x 坐标 表述 空间 ， 
离散 为 长 度 为 h 的 小 区 间 ， 时 间 坐 标 寺 则 离散 为 长 度 为 dt 的 小 区 间 ， 即 式 (8-270 中 的 并 
与 上 相应 以 h 及 为 5t 的 倍数 表述 : 



















































































r;-—ih 
t; —iOt 


WH rx 图 ， 图 上 各 代表 浓度 < 值 的 点 构成 一 个 网 络 〈 见 图 8-2). 











c; 
kotr- e. e. e. e. e. e. e. e. 
Cii Ci Cin 
e . . e. e. e e. e 
28t . e e e e e e. e 
ôt e. e. e. e. e. e. e. e. 
ho 3 3 ————— 3 


受 明 ”空间 与 时 间 离 散 网 点 示意 











考察 图 中 标 出 的 点 ， 所 谓 数字 模拟 问题 就 是 找 出 每 一 时 间 间 隔 3 Pin x 轴 的 浓度 系列 。 
Feldberg[25 研 究 的 方法 的 基本 思路 ， 是 设想 从 一 维 方 向 观察 一 很 细 的 溶液 体 ， 其 截面 积 ; 
A ， 以 等 长 h 分 割 成 为 许多 “ 箱 ” 单 位 ， 如 图 8-3 所 示 。 试 考察 3 个 相 邻 的 “ 箱 ” 单 元 ， 
i—l, i, i 十 1。 在 时 间 间 隔 bt ， 有 溶质 由 ;一 1 单元 流入 i， 同 时 也 有 溶质 由 i 流出 ， 进 入 
i 十 1 单元 ， 依 Fick 第 一 定律 ， 沿 观测 方向 xz 溶质 扩散 通过 截面 积 A 的 通 量 f (mol/s) 应 与 
在 该 截面 处 浓度 梯度 的 负 值 成 正比 : 
fa —dn/dt = — AD8c/8x (8-28) 


UB. n 为 物质 的 量 ; D 为 扩散 系数 。 对 于 图 8-3 Bros B9. "587. Hon. d. 1-1 两 个 单 
元 之 间 的 浓度 梯度 ac/az 可 以 《c; 一 c;-1)/h 代替 ,同样 的 情况 适用 于 i、i 十 1 两 个 单元 ， 
故 有 : 
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f1— —AD[G; —c; 4)/h] 
fa —AD[C;44—6;)/h] 
流入 单元 i 的 净 通 量 为 
j 一 廊 一 /2 
故 在 òt 时 间 内 ,i 单元 (体积 w) 净 增加 的 洲 质 的 量 是 : 
n=fàt 





8c; —n/V,; —CF8t) / CAR) 2 [CAD8t£) / CAR) ]LCc;-i — 2c; +ci+1)/h] 
—[CXG8:22/(OD][Ci-1 —2ci t ci10/ A ] 
即时 间 Ot 后 ,i 单元 中 浓度 为 : 
c=citL DOE)/ hei 2c; ci 4a) (8-29) 


用 i 单元 新 的 浓度 值 <; ， 可 进而 处 理 ;十 1 单元 ， 如 此 类 推 。 只 是 对 于 直接 与 电极 表面 接触 
的 单元 ， 和 情况 稍 有 不 同 〈 即 微分 方程 的 边 值 问题 )。 设 直接 与 电极 接触 处 浓度 为 c。( 参 见 图 
8-4)， 这 里 讨论 的 各 单元 中 的 c; 均 是 指 其 中 心 点 的 浓度 ， 而 c, 与 电极 -溶液 界面 处 co 之 间 浓 
度 的 梯度 为 









































(9c /Ox)1 — — c92/ (A /2) 








因而 
fı =—AD[ lci ~— co)/(h/2)] 
广 仍 如 前 表述 
f2 =—AD[(cı —co)/h] 
故 有 ci —c1- [XGD91) /CA? ) (269 —361 c2) (8-30) 
CE 离散 的 “ 箱 ” 与 电极 表面 


Rs 8" Sn 


上 面 就 是 “ 箱 ” 法 的 最 基本 部 分 。 这 种 算法 十 分 直观 ,体现 了 在 计算 机 上 将 溶液 离散 化 
逐 段 模拟 的 过 程 。 其 实 ， 进 行 这 种 模拟 并 不 一 定 需要 人 为 地 设想 这 种 “ 箱 ” 单 元 ， 而 可 直接 
采用 一 般 的 算法 。 事 实 上， 如 有 y 作为 x 的 函数 ( 见 图 8-5)， 设 需要 计算 等 距离 的 对 应 于 
坐标 X. Y HJ bici. Dis pisa AE BT ft RS XE ADLER. 所 谓 等 距离 是 指 CXij—]. Tis Ti+ 均 
相距 及 ， 对 于 一 阶 微 分 (dy/dz)， 可 写 出 
(dy/dz) 向 前 二 (Yin 一 yi)/h 
或 (dy /dx ) 向 后 — (yi — yi1)/h 


或 (dy/dz)mp — yia — Yi-1)/ (2h) 
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对 于 二 阶 微分 
d? y/dx? =| (dy/dx) ggg — Cdy /dxD ga ]/h 
—(yi4—2y; — yim )/h? 
ER “点 ” 式 离散 过 程 
JA Fick 第 二 定律 出 发 ， 考察 图 8-2 的 网 格 上 的 三 点 c;_1，2c;，ci41， 和 欲 计算 ci. YER 
(8-27) 离散 化 ， 即 以 相应 差分 公式 代 蔡 微分 ， 左边 简写 成 
(8c/8t)1 — (c1 — ci)/ t) (8-31) 
而 对 右边 则 有 
D (8?c/8x?) =(D/h?) lcim — 2e; d ci) (8-32) 
合并 式 (8-31) 5X (8-32, 得 
(ci —ci;0/ Gt) — (ID / hA?) Ceci —2ei cii (8-33) 
亦 即 
c; =c; LOD8t) /h? ]CGei-1— 2c; d cii) =c; FA Cci 26i cii) (8-34) 


比较 式 (8-340. 与 式 〈8-30)， 它 们 是 完全 等 同 的 。 即 不 人 为 想象 “ 箱 ” 单 元 ， 可 得 到 相同 


的 结 


上 面 通 过 对 最 简单 的 扩散 过 程 的 数字 模拟 ， 解 释 了 有 关 算 法 的 基本 思路 。 从 这 一 基本 思 














路 出 发 ， 可 以 构造 较 复 杂 的 系统 的 模拟 算法 ， 如 可 模拟 滴 孙 电极 球形 表面 的 扩散 过 程 等 。 上 
述 模 拟 中 的 4， 即 LCD6z)/h?]」， 是 一 个 很 重要 的 量 ， 对 模拟 过 程 十 分 重要 。 设 计 模 拟 算法 
E, WERA, t 的 值 ， 使 得 4 三 0.5。 如 4 之 0.5， 模拟 将 不 收敛 而 出 现 “振荡 ”， 无 法 反 
映 扩散 过 程 的 实际 情况 。 这 可 理解 为 在 给 定 的 DD 5n 下 ，6t 的 选取 受到 限制 ， 只 有 在 较 小 























的 or 下 才能 假定 可 用 线性 关系 描述 扩散 过 程 。 如 再 考察 式 (8-34)， 即 














cf 一 ci 十 (ci 1 一 2c; 十 ci+H1) 











这 个 式 子 表述 了 ci 值 是 由 c; 值 加 右边 的 男 一 项 而 得 ， 这 一 项 中 的 cia. ci. cia HERE 








E 
[Ess 
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误差 ， 设 这 文 一 误差 为 es 则 有 
e=; Fe tÀ; Fe 12er 2er tea Tea) 
如 设想 所 有 i 一 1\i\i 十 1 的 误差 均 为 e, 则 误差 大 部 分 抵 销 , 不 致 因 传 递 而 放大 。 但 实际 情况 


难 满足 这 一 条 件 , 如 设 各 。 绝对 值 相同 ,符号 有 正 有 负 , 考 虑 最 坏 情况 , 令 c;-1、citi 的 误差 为 
正 , 而 c; 的 误差 为 负 , 则 有 








cf 一 ci 十 (ci 一 2c; 十 ci+H1) 十 (4 一 1)e (8-35) 


x (8-350 右边 的 前 两 项 代表 c; 的 真 值 ， 最 后 一 项 是 模拟 过 程 引入 的 误差 。 从 此 式 可 以 看 
出 ,二 0.5 时 ,误差 将 被 放大 。 

在 模拟 电化 学 过 程 时 ， 常 常 同一 形式 的 曲线 需 反 复 迭 代 计算 。 为 使 这 种 计算 不 至 于 每 次 
由 于 数值 变化 要 重复 进行 ， 可 将 模拟 单位 “无 量 纲 化 ”>， 即 将 各 物理 量变 换 为 某 种 参 比 值 的 
倍数 。 例 如 时 间 以 某 种 实验 观测 时 间 c 作 参 比 ， 变 换 为 











T=1/r 
距离 则 变换 为 

X=7x/6 
6 为 Nernst 扩散 层 厚度 

6=VnDr 


关于 Nernst 扩散 层 厚度 的 涵义 ， 这 里 可 设想 溶液 (本 体 浓度 co) 与 电极 表面 接触 ， 接 触 处 
发 生 电化 学 过 程 ， 物 质 耗 尽 c= 二 0， 则 在 这 个 接触 处 与 溶液 本 体 之 间 将 产生 浓 差 梯 度 ， 扩散 
过 程 将 使 本 体 溶液 中 物质 向 电极 表面 转移 ， 实 际 上 ， 只 在 距 电 极 表面 几 个 6 厚度 人 处， 有 这 种 
浓度 梯度 变化 存在 ， 距 离 更 远 时 浓度 均等 于 本 体 浓度 co. 

如 将 浓度 c 亦 无 因 次 化 ， 使 之 为 

















C —c/cg 
代入 式 (8-270 ， 将 得 到 
aC/aT 一 (1/r)32C/BX3 (8-36) 


如 取 6 二 VDr， 则 上 式 中 的 x 亦 可 消去 ， 用 这 样 的 办 法 进行 模拟 ,可 显著 缩短 计 
算 机 时 。 

实际 的 电化 学 过 程 有 许多 因素 要 加 以 考虑 。 除 扩散 以 外 ， 有 对 流 、 迁 移 等 过 程 ， 有 均 相 
的 与 非 均 相 的 化 学 反应 动力 因素 、 吸 附 动力 学 因素 等 。 模 拟 要 考虑 边界 条 件 ， 控 制 电流 或 电 
位 下 的 可 逆 及 准 可 逆 体 系 、 多 步 反 应 等 ， 条 件 各 不 相同 ， 这 些 体系 的 数字 模拟 问题 已 基本 上 
得 到 解决 。 现 代 计 算 机 数值 方法 还 为 电化 学 过 程 的 模拟 提供 了 工具 。 进 行 电 化 学 过 程 数 字模 
拟 最 关键 的 问题 是 电化 学 体系 的 数学 描述 ， 可 参阅 有 关 电 化 学 及 电 分 析 化 学 专著 [%~?*?] 。 例 
如 ， 在 作者 实验 室 进行 了 新 合成 的 电 分 析 试 剂 的 电极 过 程 研究 [2 。 数 字模 拟 用 于 电化 学 研 
究 的 另 一 个 实例 是 离子 选择 性 电极 膜 电化 学 过 程 的 模拟 ， 例 如 中 性 载体 电极 响应 机 理 的 数字 
模拟 研究 。 对 于 新 合成 制备 的 基于 主 - 客 配合 物 反应 的 伯 胺 电极 ， 用 数字 模拟 方法 探讨 了 各 
种 实验 因素 对 电极 性 能 的 影响 ， 并 将 它 与 实验 结果 进行 了 比较 ， 以 阐明 有 关 响 应 机 理 [2] 。 
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定量 结构 活性 关系 研究 (QSAR) 和 定量 结构 性 质 关 系 研究 (QSPR) 这 两 种 定量 构 效 

关系 研究 现 已 成 为 化 学 计量 学 研究 的 一 个 十 分 重要 的 分 支 ， 化 学 计量 学 的 发 展 又 将 QSAR 
和 QSPR 的 研究 提高 到 了 一 个 新 的 水 平 。 大 量 的 研究 文章 已 发 表 在 很 多 重要 的 国际 刊物 上 ， 
这 些 刊物 包括 美国 的 《分 析 化 学 》 (Analytical Chemistry)、《 医 学 化 学 杂志 》 (J. Medicinal 
Chemistry)、《 应 用 毒物 学 基础 》 (Fundamentals of Applied Toxicology)、《 药 物 信 息 杂 志 》 
(Drug Information Journal)、《 环 境 健 康 远 景 》 (Environmental Health Perspectives)、《 药 
物 科 学 杂志 》 (Journal of Pharmaceutical Science) 等 。 此 外 ， 在 1982 年 ,一 本 专门 介绍 定 
量 构 效 关系 的 杂志 (Quantitative Structure-Activity Relationship) 也 已 问世 。 
其 实 ， 构 效 关 系 的 研究 可 追溯 到 20 世纪 ， 有 机 反应 性 相关 分 析 (CAOC) 这 一 研究 领 
域 呈 就 可 看 成 是 定量 构 效 关系 研究 的 前 身 。Hammett 在 其 经 典 著作 [ 引 中 提出 线性 自由 能 3 
f (LFER) 可 认 作 QSAR 和 QSPR 的 起 点 。 当 时 只 是 少 部 分 的 化 学 参数 可 以 数量 化 ， 如 取 
代 基 的 电子 效应 CHammetto 常数 )、 立 体 参 数 (Taft 参数 ) 以 及 巩 水 性 CHansch 的 分 配 
常数 ) 。HanschL3] 的 研究 将 这 些 化 学 性 质 建立 在 定量 研究 的 基础 之 上 ， 他 主要 探讨 了 结构 变 
化 与 生化 活性 之 间 的 关系 。 我 国 的 化 学 家 们 在 这 方面 也 做 了 大 量 工作 ， 陈 荣 习 等 呈 发 展 了 
配 位 化 学 中 的 线性 自由 能 关系 的 研究 。 蒋 明 谦 系统 论述 了 有 机 化 合 物 的 同系 线性 规律 5 ， 
徐 光 完 等 探讨 了 这 类 规律 的 量子 化 学 基础 [5] 。 在 有 关 物 理 有 机 化 学 涂 剂 效应 研究 中 ， 刘 有 
成 等 比较 了 有 关 溶 剂 极 性 经 验 参 数 !"]。 定 量 构 效 关系 的 研究 实际 上 涉及 了 化 学 学 科 一 个 根 
本 性 的 问题 ， 即 如 何 从 物质 的 化 学 成 分 与 结构 定量 预测 其 化 学 特性 ? 量子 化 学 研究 的 一 个 重 
要 目的 就 是 要 直接 从 微观 的 角度 来 回答 这 样 的 问题 。 对 于 一 个 给 定 的 分 子 ， 量 子 化 学 通过 求 
解 相应 的 Schrodinger 方程 ， 求 出 相应 的 特征 值 和 特征 向 量 ， 可 描绘 能 量 和 电子 的 分 布 ， 分 
子 的 性 质 可 从 波 函 数 与 能 量 导 出 。 目 前 ， 量 子 化 学 已 取得 令 人 了 瞩目 的 成 就 ， 但 对 于 复杂 的 分 
子 进 行 量子 化 学 计算 尚 有 一 定 困难 。 由 于 这 一 原因 ， 大 量 的 化 学 研究 仍 处 于 一 种 “定性 ”的 
水 平 。 而 本 书 所 主要 论 及 的 定量 构 效 关系 则 是 从 宏观 的 角度 出 发 ， 直 接 从 试验 数据 或 某 些 量 
化 的 结构 数据 出 发 ， 采 用 统计 学 和 模式 识别 的 方法 来 建立 起 某 些 化 学 结构 与 性 能 的 关系 。 

因 有 机 反应 性 相关 分 析 (CAOC) 这 一 研究 领域 实际 可 看 成 是 定量 构 效 关系 研究 的 前 
喘 ， 所 以 本 章 首 先 将 对 有 机 反应 性 相关 分 析 这 一 研究 领域 进行 必要 的 介绍 ， 然 后 ， 对 化 合 物 
结构 的 数字 表征 方法 ， 如 拓扑 矩阵、 分 子 连接 性 指数 等 ， 作 出 详细 的 介绍 ， 在 此 基础 上 ， 再 
将 化 学 计量 学 中 的 构 效 关系 建 模 方法 分 成 三 个 部 分 ， 即 基于 回归 分 析 的 建 模 方法 、 基 于 模式 
识别 的 建 模 方 法 和 人 工 神 经 网 络 的 建 模 方法 ， 分 别 给 出 详细 说 明 。 本 章 将 以 介绍 实例 为 主 ， 
相应 的 方法 介绍 和 计算 机 程序 就 可 直接 参见 本 书 中 其 他 有 关 部 分 。 


第 一 节 ”化 学 构 效 关系 研究 起 源 一 一 有 机 反应 性 相关 分 析 方 法 简介 
有 机 反应 性 相关 分 析 这 一 研究 领域 主要 应 用 回归 分 析 方法 来 寻找 有 机 反应 性 的 数量 关 


系 。 历 史上 ， 线 性 自由 能 关系 就 是 由 有 机 化 学 家 发 展 起 来 的 ， 同 时 他 们 还 提出 了 一 些 有 用 的 
反应 参数 ， 如 取代 基 的 电子 效应 (OHammette 常数 )、 立 体 参 数 (Taft 等 的 参数 ) 等 ， 本 节 
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对 这 些 内 容 将 给 出 简要 介绍 ， 以 保持 定量 构 效 关系 这 一 内 容 的 完整 性 。 
一 、 线 性 自由 能 概念 及 其 经 典 Hammett o 常数 
对 于 热力 学 平衡 常数 K， 可 写 出 
lgK =— AG9Ì / 2. 303RT) 
AGS 是 反应 的 标准 自由 能 变化 ， 对 动力 学 过 程 ， 速 率 常 数 & 可 表示 为 
lgk =lgkT/h — AGO / (2. 303RT) 


此 处 方程 右 侧 的 & 是 Boltzman 常数 ，AGS 是 标准 活化 自由 能 。 由 此 得 出 ， 有 关 lgK 或 lgk 
(恒定 温度 下 ) 的 关系 ， 实 质 上 是 关于 自由 能 的 关系 ， 故 有 线性 自由 能 (FER) 之 称 。 

Hammettt 引 提出 的 经 典 公 式 ， 描 述 了 间 位 或 对 位 取代 茶 衍 生物 的 支 链 反应 的 速率 常数 
k 或 平衡 常数 K 与 取代 常数 o、 反 应 常数 6 的 关系 : 


lgk =lgk° + p0 

















lgK =lgK° +0 
&o、 开 。 是 与 未 取代 的 母体 化 合 物性 质 有 关 的 常数 ， 取 代 常 数 o 表征 的 是 将 茶 环 上 的 氧 以 给 
定 的 间 位 或 对 位 取代 基 取 代 时 的 极 性 效应 ， 原 则 上 与 温度 、 溶 剂 介质 等 条 件 无 关 。 而 反应 常 
数 o 则 与 这 些 条 件 有 关 。Hammett 选择 茶 甲 酸 在 25'C 时 在 水 中 的 电离 作为 参 比 反应 ， 定 义 
X po 三 1， 并 定义 

















às 








c —lgCK ,/K32) (9-1) 


Ki 是 茶 甲酸 本 身 的 离 解 常数 ，K。 则 是 取代 茶 甲 酸 的 离 解 常数 ，lgk 或 lgK 与 o 之 间 有 线性 
关系 ， 这 就 是 经 典 的 LFER。 不 同 基 团 在 间 位 (m) 或 对 位 (p) 的 ce 值 示例 于 表 9-1ts] 。 符 
合 于 方程 (9-1) 的 构 效 关系 已 观察 到 差不多 有 数 百 种 J 。 平 衡 常 数 和 速率 常数 都 符合 这 种 
关系 。 值 得 注意 的 是 ， 并 非 所 有 的 化 合 物 系列 在 c 和 lgk 或 lgK 间 均 能 获得 简单 的 线性 关 
系 。 此 外 ， 尽 管 上 述 关 系 是 用 热力 学 术语 加 以 叙述 的 〈AcGC 或 lgK 值 )， 但 只 能 属 超 热力 学 
范畴 ， 因 为 无 法 用 热力 学 原理 来 阐述 这 些 关系 是 真正 存在 的 。 


一 些 取代 基 的 o 值 












































取代 值 Om op 取代 值 Om o, 
Me — 0. 07 —0. 16 OH 0. 13 — 0. 38 
Bu — 0. 10 — 0. 20 OMe 0. 11 — 0. 28 
Ph 0. 06 —0.01 OAC 0. 39 0. 31 
CF; 0. 43 0. 54 SH 0. 25 0. 15 
COMe 0. 38 0. 50 SMe 0. 15 0. 00 
CO;H 0. 37 0. 45 SO» * Me 0. 60 0.72 
CN 0. 61 0. 70 F 0. 34 0. 06 
NH; 0. 00 一 0. 57 Cl 0. 37 0. 22 
NMe» 一 0. 15 0. 63 Br 0. 39 0. 22 
NO» 0. 71 0. 78 I 0. 35 0. 21 























二 、 取 代 基 电子 效应 常数 (o 常数 ) 的 应 用 与 拓展 
取代 基 的 电子 效应 常数 Co 常数 ) 对 线性 自由 能 类 型 的 构 效 关系 分 析 很 有 用 ， 它 主要 是 
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为 了 说 明 各 种 远程 取代 基 对 分 子 某 部 分 的 反应 性 能 的 影响 。 
1. 芳香 系统 上 的 取代 基 
传统 的 Hammett 方程 由 式 (9-1) 给 出 ， 并 定义 了 茶 甲 酸 在 25C 时 在 水 中 电离 的 ce 等 

于 1， 由 此 可 算出 其 他 一 些 反 应 的 o 值 ( 见 表 9-2)。 表 的 左 侧 表示 在 芳 环 和 反应 中 心 之 间 的 

UC EE A. o 值 就 越 小 Co 值 衡量 反应 对 取代 基 影 响 的 敏感 程度 )。 表 的 右 侧 表 明 溶 剂 的 极 

性 变 小 ， 导 致 o 值 增 大 ， 这 种 溶剂 效应 尚未 充分 认识 [1 。 


DERE) 凌 酸 反应 中 溶剂 和 侧 链 对 c 值 的 影响 







































































底 物 溶剂 | 温度 /Cj off 底 物 溶剂 | 温度 /Cj oË 
酸 的 电离 作用 酸 与 偶 氮 二 葵 甲 烷 的 反应 

ArCOOH J 25 1. 00 ArCOOH 叔 丁 醇 30 1. 28 
ArCH: COOH J 25 0. 49 ArCOOH 异 丙 醇 30 1.07 
ArCH —CHCOOH (x 3X) J 25 0. 47 ArCOOH 乙醇 30 0. 94 
ArSCH;COOH J 25 0. 30 ArCOOH 醇 30 0. 88 
ArSO:CH:COOH J 25 0. 25 ArCH —CHCOOH Oz X) 乙醇 30 0. 42 
Ar(CH:): COOH 7 25 0. 21 ArCH;COOH 乙醇 30 0. 40 
ArOCH: COOH 乙醇 30 0. 25 

Ar(CH:): COOH 乙醇 30 0. 22 

p-ArCs H1COOH 乙醇 30 0. 22 


























在 Hammett 方程 式 定义 后 不 久 ， 发 现 某 些 基 团 或 母体 分 子 或 反应 需要 采用 特殊 的 
值 。 这 种 o 值 反 映 了 取代 基 和 反应 部 位 间 直 接 共 罗 相 互 作用 的 影响 。 对 位 硝 基 对 酚 盐 的 稳定 
化 作用 (XL 就 是 个 典型 例子 ， 然而， 这 种 共 轿 稳定 化 在 对 硝 基 茶 甲 酸 盐 (好) 中 是 不 
存在 的 。 
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Bir LA ESL ACRI I D Poco ECBE3E SUE HE. anM% o 值 。 凡 在 反应 时 毗邻 环 处 产 
生 正 性 中 心 时 ， 用 oo 表示 对 位 取代 基 的 电子 常数 ， 例 如 ,一 OCH3,， 一 CHs, 一 OH ,， 
一 SCHs ， 它 们 通过 直接 共 斩 向 正 性 中 心 供给 电子 ;反之 ， 可 产生 负 性 中 心 的 反应 ， 用 cy 
表示 对 位 取代 基 的 电子 常数 ， 例 如 ， 一 NO*， 一 CN， 一 COOH,， 一 SONHs 。 其 他 取代 基 仍 
用 原 值 表示 。 表 9-3 列 出 了 常用 取代 基 的 c，c，，cy fH. 











常用 取代 基 的 电子 参数 








H 0. 00 0. 00 0.00 0. 00 Br 0. 37 0. 26 9.15 


F 0. 34 0. 15 —0. 07 —0. 02 Me — 0. 06 —0.14 = 03l 
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取代 基 On 0, ay o, 取代 基 On 0, ay o, 

OH 0.02 一 0. 22 一 0. 92 CO;R 0. 35 0. 44 0. 48 0. 68 
N(CH;) F 0. 88 0. 82 0. 41 C. Hs 0. 06 — 0. 05 —0.17 

NCCHs)， | 一 0. 10 一 0. 32 一 1.70 OCs H; 0. 25 一 0. 06 一 0. 50 

OCH; 0.10 一 0. 12 —0. 78 一 0. 20 CONH: 0. 28 0. 36 0. 62 
SO;CH; 0. 68 0. 73 1. 05 NO; 0. 71 0.81 0. 79 1. 24 
SCH; 0.14 0. 06 一 0. 60 CN 0. 62 0. 71 0. 66 0. 90 
COCH; 0. 36 0. 47 0. 87 CF; 0. 46 0.54 

应 用 这 些 特殊 的 o 常数 所 遇 到 的 问题 是 : 有 三 种 尺度 而 不 是 一 种 。 在 实际 计算 中 ， 不 可 


能 直截了当 地 决定 用 哪 种 ， 物 理 有 机 化 学 家 对 此 有 所 考虑 ， 许 多 反应 需要 采用 正常 值 和 修正 
值 之 间 的 o 值 。 

2. o 值 分 成 共振 成 分 和 诱导 成 分 
评价 共 轿 效应 在 反应 中 的 重要 性 的 一 个 方法 就 是 分 别 应 用 取代 基 的 共 斩 效 应 常数 〈 或 称 
共振 效应 常数 ) 和 诱导 效应 常数 。TatftLio 提出 o 值 是 这 两 种 效应 的 线性 组 合 。 根 据 化 学 原 
理 ， 他 们 创立 了 o: (诱导) Mor CHR) 值 表 。 这 样 ， 无 论 对 于 哪 类 e 值 ， 只 是 下 式 中 的 
a, b 系数 不 同 























o —ao|-- bor 
三 、 取 代 基 的 立体 效应 常数 


在 选用 各 种 参数 时 ， 立 体 效 应 参数 是 最 成 问题 的 。 这 是 因为 某 化 合 物 或 反应 的 立体 相互 
作用 难以 平移 到 男 一 化 合 物 或 反应 中 ， 而 且 ， 识别 哪 种 立体 影响 是 重要 的 也 不 容易 。 下 面 介 
绍 两 种 立体 效应 常数 。 

1. Taft 的 立体 参数 

基 团 立体 效应 的 经 典 线性 自由 能 度量 是 Taft 的 立体 参数 E. (8. E. nx X dà: 在 相 
同 的 溶剂 、 温 度 、 酸 度 下 ， 栈 基 取 代 的 乙酸 甲 酯 的 酸 催化 水 解 相对 速率 与 乙酸 甲 酯 的 比值 的 
对 数 ， 





























Esx —lgK xcosMme ~ lgK MecOs Me 
式 中 ，K xcosme 是 被 取代 的 酯 的 水 解 速 率 常数 ; K mecosmwe 是 乙酸 甲 酯 的 水 解 速 率 常 数 。 
因此 ， 甲 基 是 基准 取代 基 ， 和 若 以 氏 和 Ko 分 别 表示 取代 的 和 基准 化 合 物 的 速率 常数 ， 则 另 
一 种 表达 式 如 下 : 
E,—lglK/Kol. (9-2) 


AP, FER a 指 酸 水 解 反应 。 

酸 催化 水 解 反应 速率 是 否 仅 由 立体 效应 控制 ， 现 在 仍 有 不 少 争论 。 通 过 观测 发 现 如 下 基 
本 事实 : 茶 甲 酸 酯 间 位 或 对 位 取代 基 几 乎 不 影响 酸 催化 水 解 反 应 速率 ; 茶 甲 酸 上 类 似 取 代 基 
也 不 影响 酸 催 化 水 解 反应 速率 。 而 这 类 取代 基 对 同样 化 合 物 的 碱 催化 反应 速率 影响 却 很 大 。 

Hancock 等 下 认 为 该 模型 是 受 超 共 纯 效应 影响 的 ， 建 议 下 ,应 按 式 (9-3) 加 以 修正 : 


E} =E, +0. 306(n—3) (9-3) 
AP, n 是 w- 氢 原子 的 数目 。 这 一 论断 已 被 量子 化 学 计算 证 实 。 
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许多 取代 基 的 Taft EF; 值 是 不 能 测量 的 ， 系 因 E; 值 是 依 模 型 反应 的 性 质 所 定 。 针 对 这 个 
问题 ，Chartont3j 和 Kutter 及 Hanschl!4j 建 议 ， 对 于 球形 对 称 的 基 团 ， 可 用 半径 作为 立体 
效应 的 度量 。E, 和 半径 间 的 良好 相关 性 证 实 了 EE, 的 立体 性 质 。 利 用 这 种 关系 ， 已 经 计算 
了 男 外 一 些 基 团 的 EE, 值 。 

2. Verloop 立体 参数 

Verloop 等 介绍 了 一 套 新 的 立体 取代 基 参 数 i15,1] 。 它 们 是 通过 标准 键 角 和 键 距 的 计算 
得 到 的 。 已 经 发 表 了 243 个 取代 基 的 5 个 参数 ， 第 一 个 参数 为 L， 它 是 沿 取 代 基 和 母体 分 子 
的 键 轴 方 向 上 的 取代 基 长 度 。 垂 直 于 该 键 轴 方 向 又 量 测 出 四 个 参数 Bi ~B, Bi 是 最 小 宽 
ES, Bo~ B, 分 别 是 垂直 于 其 他 B 的 距离 ， 且 依 值 的 大 小 递增 排列 。 故 工 MB ~B, 反 
映 了 紧 紧 围绕 基 团 的 五 个 平面 的 位 置 ， 这 些 位 置 与 连接 点 和 键 轴 有 关 。 

从 初步 应 用 看 来 ， 这 些 参数 在 构 效 关系 的 计算 中 是 非常 有 用 的 。 但 是 ， 是 否 5 个 参数 都 
必要 ， 尚 未 作 定 论 。 表 9-4 引 摘 了 243 个 取代 基 的 Verloop 参数 供 读 者 参考 。 


243 个 取代 基 的 Verloop 立体 参数 
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im 号 取 代 基 L/nm Bı/nm B;/nm B;/nm B,/nm 
1 H 0. 206 0. 100 0. 100 0. 100 0. 100 
2 F 0. 265 0. 135 0. 135 0. 135 0. 135 
3 Cl 0. 352 0. 180 0. 180 0. 180 0. 180 
4 Br 0. 383 0. 195 0. 195 0. 195 0. 195 
5 I 0. 423 0. 215 0. 215 0. 215 0. 215 
6 CH3 0. 300 0. 152 0. 190 0. 190 0. 204 
7 C;H; 0. 411 0. 152 0. 190 0. 190 0. 297 
8 n-Ca Hz 0. 505 0. 152 0. 190 0. 190 0. 349 
9 i-C4 H7 0. 411 0. 204 0. 276 0. 316 0. 316 
10 c-C4 Hs 0. 414 0. 198 0. 224 0. 229 0. 288 
1 n-C4 Ho 0. 617 0. 152 0. 190 0. 190 0. 442 
2 i-C4 Ho 0. 505 0. 152 0. 190 0. 316 0. 421 
3 5-C4 Ho 0. 505 0. 190 0. 276 0. 316 0. 349 
14 -Ci Ho 0. 411 0. 259 0. 286 0. 286 0. 297 
5 c-C4 H7 0. 469 0. 195 0. 264 0. 264 0. 383 
16 n-Cs Hu 0. 711 0. 152 0. 190 0. 190 0. 494 
7 i-C; Hui 0. 617 0. 152 0. 190 0. 316 0. 442 
18 CH(C: H5)? 0. 473 0. 211 0. 259 0. 399 0. 399 
9 c-Cs Ho 0. 497 0. 204 0. 286 0. 286 0. 398 
20 n-Cc His 0. 822 0. 152 0. 190 0. 190 0. 587 
21 C; H4C(CH;); 0. 617 0. 152 0. 286 0. 286 0. 442 
22 CH;C(CH4;)2 C; Hs 0. 617 0. 152 0. 316 0. 316 0. 442 
23 c-Ce Hui 0. 617 0. 204 0. 316 0. 316 0. 349 
24 n-Cz His 0. 916 0. 152 0. 190 0. 190 0. 639 
25 CCCH;02CCCH3)5 0. 505 0. 259 0. 312 0. 312 0. 414 
26 n-Cs Hi 1.027 0. 152 0. 190 0. 190 0. 733 
27 n-Cs Hi7( 紧 密 型 ) 0. 582 0. 152 0. 217 0. 475 0. 685 
28 n-C12 H25 1. 438 0. 152 0. 190 0. 190 1. 027 
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续 表 

i 号 HE R 基 L/nm B,/nm B;/nm B;/nm B,/nm 
29 n-Ci? Hos (紧密 型 ) 0. 729 0. 152 0. 190 . 466 0. 939 
30 CH;F 0. 330 0. 152 0. 190 190 0. 261 
31 CH2CI 0. 389 0. 152 0. 190 190 0. 346 
32 CH: Br 0. 409 0. 152 0. 195 95 0. 375 
33 CH;I 0. 436 0. 152 0. 215 . 215 0. 415 
34 CH;OH 0. 397 0. 152 0. 190 190 0. 270 
35 CH: OCH; 0. 491 0. 152 0. 190 190 0. 288 
36 CH;OCOCH; 0. 546 0. 152 0. 190 190 0. 446 
37 CH; OC; H; 0. 819 0. 152 0. 309 311 0. 311 
38 CH;SCH; 0. 541 0. 152 0. 190 190 0. 341 
39 CH;SO;CH; 0. 505 0. 152 0. 252 . 252 0. 348 
40 CH;NHCH; 0. 496 0. 152 0. 190 190 0. 290 
41 CH; N(CH;); 0. 483 0. 152 0. 280 . 280 0. 342 
42 CH;NCH;)5 0. 496 0. 152 0. 280 . 280 0. 394 
43 CH; NO» 0. 370 0. 152 0. 244 . 244 0. 336 
44 CH;CCH 0. 399 0. 152 0. 190 . 190 0. 449 
45 CH;CN 0. 399 0. 152 0. 190 . 190 0. 412 
46 CH;CHCH», 0.511 0. 152 0. 190 . 190 0. 378 
47 CH;CBrCH» 0. 416 0. 152 0. 312 368 0. 413 
48 CH;CF; 0. 470 0. 152 0. 244 . 244 0. 345 
49 CH?COCH; 0. 454 0. 152 0. 190 . 190 0. 439 
50 CH? COOCH; 0. 598 0. 152 0. 190 . 190 0. 428 
51 CH» Cs Hs 0. 363 0. 152 0. 311 311 0. 602 
52 CH? p-CIC; H1) 0. 442 0. 152 0. 311 .311 0. 744 
53 CH? CONHC&H; 0. 695 0. 152 0. 311 311 0. 722 
54 C;H,CI 0. 557 0. 152 0. 190 . 190 0. 325 
55 C; Ha Br 0. 587 0. 152 0. 195 340 0. 340 
56 C;H,I 0. 628 0. 152 0. 215 . 215 0. 360 
57 C; H,OH 0. 479 0. 152 0. 190 190 0. 338 
58 C; H4 NO» 0. 549 0. 152 0. 244 244 0. 298 
59 C; Ha N(CH;)2 0. 558 0. 152 0. 280 . 280 0. 297 
60 C; H,CN 0. 628 0. 152 0. 190 . 190 0. 305 
61 C; H; COOH 0. 596 0. 152 0. 235 267 0. 305 
62 C; HuCONH» 0. 611 0. 152 0. 242 297 0. 308 
63 C; H4 C; H5 0. 833 0. 152 0. 311 311 0. 316 
64 CHF; 0. 330 0. 171 0. 175 226 0. 256 
65 CHCI: 0. 389 0. 204 0. 263 324 0. 324 
66 CHBr: 0. 409 0. 204 0. 285 350 0. 350 
67 CHFCI 0. 389 0. 175 0. 228 258 0. 339 
68 CHFBr 0. 409 0. 175 0. 247 258 0. 368 
69 CHCIBr 0. 409 0. 190 0. 275 346 0. 356 
70 CHCICH; 0. 389 0. 189 0. 258 287 0. 346 


分 析 化 学 手册 10， 化 学 计量 学 
























































AK 
1m 取 代 基 工 /nm B,/nm B;/nm B;/nm B,/nm 
71 CHBrCH; 0. 409 0. 193 0. 283 0. 298 0. 352 
72 CHOHCH; 0. 397 0. 176 0. 222 0. 263 0. 309 
73 CHCH;NCCH3)2 0. 429 0. 190 0. 305 0. 374 0. 424 
74 CH(Ce Hs22 0. 515 0. 201 0. 499 0. 528 0. 582 
75 CF; 0. 330 0. 198 0. 244 0. 244 0. 261 
76 CCl; 0. 289 0. 263 0. 324 0. 324 0. 346 
TI CBr; 0. 409 0. 286 0. 350 0. 350 0. 375 
78 CF;CF; 0. 411 0. 198 0. 244 0. 244 0. 364 
79 CCCH32; CH? OCH; 0. 555 0. 277 0. 316 0. 316 0. 449 
80 CCCo? Hs )2C; H; 0. 528 0. 310 0. 332 0. 390 0. 596 
81 CCC6H5)s 0.515 0. 484 0. 502 0. 571 0. 594 
82 CHCH: 0. 429 0. 160 0. 160 0. 200 0. 309 
83 CHCHCH; (E) 0. 523 0. 190 0. 190 0. 200 0. 309 
84 CHCHCH;(Z) 0. 429 0.190 0. 190 0. 200 0. 403 
85 CCCH30CH»à 0. 429 0. 190 0. 190 0. 309 0. 311 
86 CHCHCH(CH:)2 0. 635 0.190 0. 200 0. 316 0. 406 
87 CHCHNO» 0. 429 0. 150 0. 183 0. 324 0. 421 
88 CHCHCOOH 0. 615 0. 160 0. 183 0. 251 0. 31 
89 CHCHCOCH; 0. 560 0. 160 0. 183 0. 324 0. 373 
90 CHNOHCE) 0. 488 0. 160 0. 160 0. 192 0. 31 
91 CHNOHCZ) 0. 394 0. 150 0. 183 0. 270 0. 366 
92 CHNCH(CH:3)2 0. 635 0.190 0. 200 0. 316 0. 406 
93 CHNN(CCH3)2 0.5747 0.190 0. 200 0. 280 0. 417 
94 CHNC; H; 0. 850 0. 170 0. 170 0. 236 0. 407 
95 COH 0. 353 0. 160 0. 160 0. 200 0. 236 
96 COCH; 0. 406 0. 190 0. 190 0. 236 0. 293 
97 COCH(CH;)2 0. 467 0.236 0. 316 0. 316 0. 369 
98 COC; H; 0. 457 0. 236 0. 311 0. 311 0. 598 
99 COOH 0. 391 0. 160 0. 160 0. 236 0. 266 
100 COOCH; 0. 485 0. 190 0. 190 0. 236 0. 336 
101 COOC: H; 0. 596 0. 190 0. 190 0. 286 0. 429 
102 COOC;H; 0. 690 0. 190 0. 190 0. 238 0. 483 
103 CONH: 0. 406 0. 160 0. 160 0. 242 0. 307 
04 CONHCH; 0. 500 0. 160 0. 223 0. 242 0. 307 
105 CONHNH?» 0. 492 0. 160 0. 195 0. 242 0. 328 
106 CONCCH;)2 0. 461 0. 190 0. 218 0. 353 0. 383 
107 CONCH;CONHCH; 0. 461 0. 181 0. 225 0. 352 0. 543 
108 CCH 0. 466 0. 150 0. 160 0. 160 0. 160 
109 CCC; Hg 0. 888 0. 170 0. 170 0. 311 0. 311 
110 CN 0. 423 0. 160 0. 160 0. 160 0. 160 
111 Cs Hs 0. 628 0. 170 0. 170 0. 311 0. 811 
12 b-CIC; H4 0. 774 0. 180 0. 180 0. 311 0. 311 
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续 表 
编 号 取 代 基 L/nm Bi/nm B;/nm B;/nm B,/nm 
113 OH 0. 274 0. 135 0. 135 0. 135 0. 193 
114 OCH; 0. 398 0. 135 0. 190 0. 190 0. 287 
115 OC? Hs 0. 492 0. 135 0. 190 0. 190 0. 336 
116 n-OC3 Hz 0. 605 0. 135 0. 190 0. 190 0. 430 
117 i-OC4H; 0. 459 0. 135 0. 190 0. 316 0. 361 
118 c-OCs H; 0. 468 0. 135 0. 224 0. 229 0. 359 
119 n-OC4 Ho 0. 699 0. 135 0. 190 0. 190 0. 479 
120 i-OC4 Ho 0. 605 0. 135 0. 190 0. 316 0. 430 
121 s-OC, Ho 0. 605 0. 135 0. 190 0. 316 0. 430 
122 1-OC Ho 0. 492 0. 135 0. 286 0. 286 0. 394 
123 n-OCs Hii 0. 811 0. 135 0. 190 0. 190 0. 573 
124 c-OCs Ho 0. 602 0. 135 0. 286 0. 290 0. 400 
125 n-OCe His 0. 905 0. 135 0. 190 0. 190 0. 623 
126 c-OCe Hi: 0. 597 0. 135 0. 316 0. 316 0. 529 
127 n-OC; Hi 1. 018 0. 135 0. 190 0. 190 0. 716 
128 n-OCsHi; 1. 112 0. 135 0. 190 0. 190 0. 766 
129 n-OCs Hi7( 紧 密 型 ) 0. 875 0. 135 0. 217 0. 442 0. 475 
130 OCH;OH 0. 466 0. 135 0. 190 0. 190 0. 326 
131 OCH;CCH 0. 658 0. 135 0. 190 0. 190 0. 293 
132 OCH:C; Hs 0. 820 0. 135 0. 303 0. 311 0. 311 
133 OC: H4 OCH; 0. 684 0. 135 0. 190 0. 190 0. 471 
134 OCF; 0. 457 0. 135 0. 244 0. 244 0. 333 
135 OCCl; 0. 644 0. 135 0. 324 0. 324 0. 398 
136 OCHCHs 0. 498 0. 135 0. 160 0. 160 0. 365 
137 OCHCHCH;(E) 0. 528 0. 135 0. 190 0. 190 0. 477 
138 OCHCHCH;(Z) 0. 593 0. 135 0. 190 0. 190 0. 365 
139 OCCH;CH; 0. 487 0. 135 0. 190 0. 190 0. 440 
140 OCOH 0. 393 0. 135 0. 160 0. 160 0. 368 
141 OCOCH; 0. 487 0. 135 0. 190 0. 190 0. 368 
142 OCOC; Hs 0. 815 0. 170 0. 170 0. 184 0. 440 
143 OCOOH 0. 471 0. 135 0. 160 0. 160 0. 368 
144 OCONH» 0. 482 0. 135 0. 160 0. 160 0. 362 
145 OCONHCH; 0. 551 0. 135 0. 190 0. 190 0. 455 
146 OCN 0. 387 0. 135 0. 160 0. 160 0. 401 
147 OC, Hs 0. 451 0. 135 0. 311 0. 311 0. 589 
148 OSO;CH; 0. 403 0. 135 0. 190 0. 357 0. 386 
149 OSOs Ce H; 0. 820 0. 161 0. 180 0. 357 0. 364 
150 SH 0. 347 0. 170 0. 170 0. 170 0. 233 
151 SCH; 0. 430 0. 170 0. 190 0. 190 0. 326 
152 SC;H; 0. 524 0. 170 0. 190 0. 190 0. 397 
153 n-SC; H7 0. 621 0. 170 0. 190 0. 190 0. 490 
154 i-SC; H7 0. 495 0. 170 0. 190 0. 316 0. 415 
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im 号 取 代 & 工 /nm B,/nm B;/nm B;/nm B,/nm 
155 c-SC3 Hs 0. 504 0. 170 0. 224 0. 229 0. 414 
156 n-SC4 Ho 0. 715 0. 170 0. 190 0. 190 0. 561 
157 i-SC4 Ho 0. 642 0. 170 0. 190 0. 316 0. 490 
158 s-SC4 Ho 0. 621 0. 170 0. 190 0. 316 0. 490 
159 t-SC. Ho 0. 524 0. 170 0. 286 0. 286 0. 423 
160 n-SC;Hii 0. 812 0. 170 0. 190 0. 190 0. 654 
161 n-SCs His 0. 905 0. 170 0. 190 0. 190 0. 725 
162 c-SCs Hu 0. 616 0. 170 0. 316 0. 316 0. 596 
163 n-SC; His 1. 002 0. 170 0. 190 0. 190 0. 818 
164 n-SCs Hi; 1. 096 0. 170 0. 190 0. 190 0. 889 
165 n-SCs Hi; 0. 915 0. 170 0. 217 0. 475 0. 524 
166 SCH;OH 0. 506 0. 170 0. 190 0. 190 0. 326 
167 SCH;CCH 0. 689 0. 170 0. 190 0. 190 0. 361 
168 SCH: C; Hs 0. 850 0. 170 0. 311 0. 311 0. 386 
169 SCF; 0. 489 0. 170 0. 244 0. 244 0. 369 
170 SCHCH; 0. 533 0. 170 0. 170 0. 170 0. 423 
171 SCHCHCH; (E) 0. 540 0. 170 0. 190 0. 190 0. 526 

72 SCHCHCH;(Z) 0. 629 0. 170 0. 190 0. 190 0. 423 
173 SCCH;CH; 0. 519 0. 170 0. 190 0. 190 0. 476 
174 SCOH 0. 435 0. 170 0. 170 0. 170 0. 401 
175 SCOCH; 0. 519 0. 170 0. 190 0. 190 0. 401 
176 SCONH: 0. 512 0. 170 0. 184 0. 184 0. 401 
177 SCONHCH; 0. 615 0. 170 0. 190 0. 190 0. 488 
178 SCN 0. 408 0. 170 0. 170 0. 170 0. 445 
179 SC; Hs 0. 457 0. 170 0. 311 0. 311 0. 642 
180 * SCCH3i)2 0. 362 0. 170 0. 259 0. 286 0. 286 
181 SOCH; 0. 403 0. 160 0. 249 0. 293 0. 336 
182 SO;CH; 0. 437 0. 211 0. 267 0. 267 0. 315 
183 SO;C;H; 0. 531 0. 211 0. 267 0. 267 0. 367 
184 SO;F 0. 350 0. 203 0. 245 0..251 0. 270 
185 SO;CF; 0. 411 0. 211 0. 267 0. 267 0. 364 
186 SO;C;Hs 0. 586 0. 211 0. 267 0. 267 0. 601 
187 SO;NHs; 0. 382 0. 211 0. 267 0. 267 0. 307 

88 SO» N(CH;)» 0. 508 0. 211 0. 280 0. 280 0. 360 
189 SO 了 0. 350 0. 211 0. 267 0. 267 0. 270 
190 SF; 0. 465 0. 249 0. 249 0. 249 0. 249 
191 NH? 0. 293 0. 150 0. 150 0. 184 0. 184 
192 NHCN; 0. 353 0. 150 0. 190 0. 190 0. 308 
193 NHC: H; 0. 496 0. 150 0. 190 0. 190 0. 342 
194 n-NHC;H; 0. 607 0. 150 0. 190 0. 190 0. 436 

95 i-NHC; Hr 0. 496 0. 150 0. 190 0. 316 0. 415 
196 c-NHC3 H; 0. 472 0. 150 0. 224 0. 229 0. 364 
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续 表 
编 取 代 基 L/nm Bi/nm B;/nm B;/nm B,/nm 
197 n-NHC Hs 0. 701 0. 150 0. 190 0. 190 0. 497 
198 i-NHCi Ho 0. 607 0. 150 0. 190 0. 316 0. 436 
199 s-NHC Hs 0. 607 0. 150 0. 190 0. 316 0. 436 
200 t-NHC4 Ho 0. 496 0. 150 0. 286 0. 286 0. 398 
201 n-NHC;Hi, 0. 813 0. 150 0. 190 0. 190 0. 518 
202 c-NHC; Ho 0. 606 0. 150 0. 286 0. 290 0. 407 
203 n-NHC;His 0. 907 0. 150 0. 190 0. 190 0. 633 
204 NHG; Hı: 0. 600 0. 150 0. 316 0. 316 0. 536 
205 n-NHC:His 1. 018 0. 150 0. 190 0. 190 0. 726 
206 n-NHCs Hi 1. 112 0. 150 0. 190 0. 190 0. 778 
207 c-NHCs His 0. 880 0. 176 0. 217 0. 450 0. 475 
208 NHCH;OH 0. 470 0. 150 0. 190 0. 190 0. 332 
209 NHCH;CCH 0. 662 0. 150 0. 190 0. 190 0. 299 
210 NHCH2 Ce H5 0. 824 0. 150 0. 309 0. 311 0. 311 
211 NHCHCH; 0. 502 0. 150 0. 160 0. 184 0. 371 
212 NHCHCHCH; (E) 0. 531 0. 150 0. 190 0. 190 0. 482 
213 NHCHCHCH; (Z) 0. 597 0. 150 0. 190 0. 190 0. 371 
214 NHCCH;CH» 0. 491 0. 150 0. 190 0. 190 0. 444 
215 NHCOH 0. 422 0. 150 0. 150 0. 194 0. 361 
216 HCOCH; 0. 515 0. 150 0. 190 0. 194 0. 361 
217 NHCOOH 0. 501 0. 150 0. 150 0. 194 0. 361 
218 HCONH: 0. 509 0. 184 0. 184 0. 194 0. 361 
219 NHCONHCH; 0. 589 0. 184 0. 194 0. 280 0. 361 
220 HCOOC:; H; 0. 445 0. 150 0. 190 0. 497 0. 557 
221 HCOCe Hi 0. 840 0. 194 0. 311 0. 311 0. 361 
222 HCSNH; 0. 462 0. 150 0. 234 0. 257 0. 418 
223 HCN 0. 390 0. 150 0. 160 0. 184 0. 405 
224 HC; Hi 0. 453 0. 150 0. 311 0. 311 0. 595 
225 HNH: 0. 340 0. 150 0. 184 0. 184 0. 282 
226 HSO;CH; 0. 406 0. 150 0. 190 0. 359 0. 388 
227 NOH)» 0. 353 0. 150 0. 256 0. 280 0. 280 
228 (CCFs)， 0. 401 0. 150 0. 310 0. 328 0. 338 
229 (Cs H5)? 0. 577 0. 150 0. 464 0. 534 0. 586 
230 NH; 0. 293 0. 150 0. 184 0. 184 0. 197 
231 NOH); 0. 402 0. 256 0. 280 0. 280 0. 290 
232 CCl: 0. 565 0. 170 0. 180 0. 184 0. 454 
233 CS 0. 429 0. 150 0. 164 0. 176 0. 424 
234 CHC; Hi 0. 840 0. 170 0. 180 0. 355 0. 366 
235 NNC; H; 0. 843 0. 170 0. 170 0. 192 0. 431 
236 CHN(CH;)? 0. 577 0. 160 0. 190 0. 280 0. 417 
237 O 0. 344 0. 170 0. 170 0. 170 0. 244 
238 NO: 0. 344 0. 170 0. 170 0. 244 0. 244 
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续 表 
编 号 取 代 基 L/nm Bi/nm B;/nm B;/nm Bs/nm 
239 N; 0. 462 0. 150 0. 234 0. 257 0. 418 
240 PCCH322 0. 388 0. 200 0. 284 0. 297 0. 329 
241 PO(CCCHs)2 0. 540 0. 268 0. 468 0. 548 0. 619 
242 IO> 0. 425 0. 215 0. 246 0. 338 0. 336 
243 2-WE I Jk 0. 597 0. 165 0. 177 0. 313 0. 316 








四 、 取 代 基 电子 效应 常数 与 立体 参数 的 协同 效应 


以 上 讨论 一 般 都 是 将 电子 效应 和 立体 效应 单独 进行 考虑 的 。 然 而 ， 实 际 上 有 些 反应 却 同 
时 存在 着 两 种 效应 。 所 以 更 一 般 的 情况 应 由 下 式 给 出 : 


lg K /K?) —pa +0E, (9-4) 


实际 上 ， 式 (9-4) 就 隐 含 着 活性 自由 能 是 相互 独立 的 电子 效应 和 立体 效应 的 综合 结果 ， 
用 数学 语言 来 说 ， 活 性 自由 能 是 电子 效应 和 立体 效应 的 线性 组 合 。 这 样 的 表达 式 对 平衡 常数 
也 同样 适合 。 式 (9-4) 构成 了 一 个 多 元 线性 回归 在 物理 有 机 化 学 最 早 应 用 的 一 个 例子 ， 它 
首先 由 Pavelich 和 Taftt1”18] 引 入 定量 构 效 关系 研究 。 他 们 在 对 30°C 甲醇 中 酸 碱 催 化 (一 )- 
甲 基 酯 RCO2Cio Hi 的 甲醇 化 研究 中 发 现 ， 对 于 酸 催 化 反应 ， 可 得 po 二 0.626, 6 二 1.549， 
复 相关 系数 R= 二 0.992; 而 对 于 碱 催化 反应 ， 可 得 p= 二 2.702, 0—1.301. 复 相 关系 数 R = 
0. 996。 随 后 Biechler 和 Taft 又 将 此 关系 应 用 到 复杂 的 N- 甲 基 茶 胺 ，PhNMeCOR 的 碱 水 解 
反应 动力 学 研究 之 中 J] 。 另 一 个 应 用 是 由 Bowden, Chapman 和 Shorter 设计 的 ， 他 们 发 
现 ， 具 有 大 基 团 (如 PhCH, PhO 的 芳 基 酸 的 lgK, 值 单 独 都 与 o 或 刁 , 没有 线性 关系 ， 
然而 ， 如 采用 由 式 (9-4) 所 示 的 多 元 线性 关系 式 来 进行 回归 ， 则 得 到 很 满意 的 结果 ， 他 们 
对 在 25'C 下 ，50%2-n- 丁 氧 基 乙 醇 水 溶液 中 的 13 个 酸 的 研究 结果 可 由 下 面 的 方程 给 出 


lgK a= —6. 0454-2. 6666 4-0. 252E, 


所 得 的 复 相关 系数 尺 FED 10002, 2EDGSCFE BEBE XR S IP. TE CAS — — 90266, A PUER BS RC 
者 可 参阅 文献 L1]. 


TS OW ”化 学 构 效 关系 研究 的 基本 假设 及 基本 过 程 


在 化 学 研究 中 ， 确 定 化 合 物 的 性 质 是 一 项 具有 挑战 性 的 工作 。 正 如 George 
S. Hammond 在 1968 年 诺 贝尔 颁奖 典礼 上 所 讲 的 ， 合 成 科学 最 根本 和 长 远 的 目标 是 合成 产 
生 一 些 新 的 性 质 而 不 是 新 的 化 合 物 。 无 论 是 有 机 化 合 物 还 是 无 机 化 合 物 ， 化 学 家 都 相信 ， 它 
们 的 化 学 结构 决定 了 它们 的 性 质 。 然 而 ， 根 据 分 子 的 结构 直接 预测 它们 的 性 质 的 方法 还 不 能 
获得 。 这 种 情况 就 像 图 9-1 所 示 那 样 ， 只 能 靠 一 种 间接 方法 来 补充 得 到 ， 即 建立 定量 结构 与 
性 质 和 定量 结构 与 活性 关系 的 数学 模型 ， 继 而 通过 相关 分 析 来 建立 化 学 结构 与 性 质 或 活性 的 
关系 ， 其 基本 假设 就 是 : 任何 物质 的 化 学 结构 决定 了 它们 的 性 质 。 

化 学 有 它 自 己 独特 的 分 子 结构 语言 ， 随 着 化 学 信息 处 理 的 计算 方法 的 改进 ， 处 理化 学 信 
息 的 描述 符 被 发 展 起 来 并 得 到 广泛 的 运用 。 在 分 子 数据 处 理 中 最 重要 的 任务 是 评价 在 大 量化 
学 数据 集中 隐 仿 的 化 学 信息 。 数 据 挖掘 技术 与 通常 的 数据 库 检 索 的 区 别 就 是 前 者 能 够 产生 新 
的 数据 并 被 运用 到 随后 的 更 加 通用 的 分 子 特征 描述 之 中 。 一 般 说 来 ， 处 理 一 个 化 学 结构 数据 
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分 子 结构 wh 性 质 


模型 中 描述 子 的 选择 















分 子 结 构 的 表征 


化 学 构 效 关系 研究 过 程 图 

















集中 所 有 潜在 的 重要 信息 是 不 可 能 的 。 因 而 ,相关 信 息 的 提取 以 及 可 靠 的 二 级 信息 的 获取 是 
重要 的 课题 。 这 样 ， 寻找 合适 的 表达 化 学 结构 的 各 种 描述 符 一 直 就 是 化 学 数据 分 析 的 基本 问 
题 之 一 。 在 最 近 几 十 年 ， 多 种 方法 被 发 展 起 来 对 分 子 的 化 学 及 物理 化 学 性 质 进 行 描述 。 

实际 上 ， 一 个 分 子 的 结构 描述 子 就 是 一 个 分 子 的 数学 表征 ， 是 把 分 子 符号 表征 转换 为 数 
值 结构 信息 的 过 程 ， 这 种 数学 表征 必须 对 分 子 的 大 小 和 原子 数 是 不 变量 ， 并 能 使 用 统计 方法 
来 建 模 预测 。 


一 、 化 学 图 论 基 本 概念 


在 理论 化 学 研究 中 ， 一 直 都 在 努力 尝试 以 数值 的 形式 对 物质 的 化 学 结构 进行 表达 ， 借 此 
来 构建 结构 描述 符 ， 并 利用 定量 结构 性 质 关 系 或 者 定量 结构 活性 关系 研究 对 物质 的 物理 、 化 
学 及 生物 性 质 进行 预测 。 

在 通常 情况 下 ， 有 机 化 合 物 的 化 学 结构 通过 其 分 子 图 来 表示 。 所 以 ， 图 论 算法 目前 被 广 
泛 用 于 同 分 异 构 体 生成 、 化 学 数据 库 搜索 和 化 学 结构 相似 性 及 多 样 性 评价 等 领域 。 其 中 最 重 
要 的 图 论 应 用 之 一 就 是 对 化 学 分 子 图 的 拓扑 不 变量 和 拓扑 性 质 的 数值 表征 ， 利 用 化 学 分 子 
图 ， 一 个 化 合 物 的 化 学 结构 可 以 表达 为 各 种 和 矩阵、 多 项 式 、 谱 序列 或 者 拓扑 指数 等 。 
每 个 分 子 图 (graph. GO 都 是 由 顶点 (vertex, v) 和 边 Cedge. e) 两 个 基本 元 素 组 
成 。 在 化 学 分 子 图 中 ， 一 般 都 以 有 机 化 合 物 的 原子 作为 顶点 ， 以 化 学 键 作 为 边 。 同 时 ， 为 简 
单 起 见 ， 一 般 将 氧 原子 略 去 ， 此 时 结构 图 称 为 分 子 骨架 或 者 隐 和 氧 图 (H-depleted graph) 。 分 
子 图 中 一 般 不 考虑 几何 特征 ， 如 键 长 、 键 角 、 立 体 及 手 性 等 因素 ， 而 是 主要 反映 有 机 化 合 物 
中 原子 的 连接 性 信息 。 

下 面 ， 以 化 合 物 1- 甲 基 -2- 两 基 环 丁 烷 为 例 ， 对 其 化 学 分 子 图 (图 9-2) 的 拓扑 不 变量 和 
拓扑 性 质 进 行 说 明 。 






















































































3 4 


1- 甲 基 -2- 丙 基 环 丁 烷 分 子 图 G1 


化 学 分 子 图 GI 由 八 个 顶点 (vl. v2. v3, v4, v5. v6. v7. v8) 和 八条 边 {el2 
e23, e25, e34, e45, e56, e67, e78) 有 序 组 成 。 如 果 两 个 顶点 通过 一 条 边 连接 ， 则 称 这 
两 个 顶点 相 邻 Cadjacent, A), W G1 中 的 v2 与 v3 相 邻 ，v2 与 v4 不 相 邻 。 如 果 两 条 边 共 
至 少 一 个 顶点 ， 则 称 这 两 条 边 相 邻 ， 如 G1 中 的 e23 和 e25 相 邻 ，e23 和 e45 不 相 邻 。 

化 学 分 子 图 中 顶点 vi 的 顶点 度 (vertex degree) 等 于 与 vi 相 邻 的 顶点 的 总 数 ， 在 GI 
中 vl 的 顶点 度 等 于 1，v2 的 顶点 度 等 于 3， 顶点 度 是 构建 拓扑 指数 的 一 个 重要 参数 。 
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化 学 分 子 图 中 的 步 程 (walk, w) 指 的 是 由 图 中 的 顶点 和 边 构 成 的 一 个 序列 《va，eab， 
vb, ebec, ve, =+, vi, eij, vj, =, vm, emn, vn}, +EH MAF i, EA MRR, E 
点 和 终点 相同 的 称 为 开放 步 程 ， 反 之 则 称 为 封闭 步 程 。 每 个 顶点 都 可 以 重复 出 现 多 次 ， 且 连 
续 的 顶点 必须 两 两 相 邻 。 例 如 ， 在 G1 P, w(1)={vl, e12, v2, e23, v3, e34, v4, e45, 
v5, e52, v2, e23, v3), v2 和 v3 都 出 现 两 次 ， 步 程 还 有 为 一 种 只 用 顶点 表示 的 方法 ，w 
(1)={vl, v2, v3, v4, v5, v2, v3}。 

在 化 学 分 子 图 中 ， 男 一 种 反映 项 点 与 边 的 有 序 连 接 叫 做 路 径 〈path，P) ， 路 径 也 是 由 项 
点 和 边 构 成 的 序列 ， 它 与 步 程 的 区 别 在 于 ， 路 径 中 的 顶点 不 能 重复 出 现 。 例 如 ，w (2) 一 
(vl, v2, v5, v6) 与 w(3) 二 (vl, v2, v3, v4, v5, v6) 都 是 始 于 vl 终于 v6 的 路 径 ， 但 
前 例 中 的 w(1) 只 是 步 程 ， 而 不 是 路 径 。 化 学 分 子 图 中 两 个 顶点 间 的 距离 (distance，D) Hl 
其 最 短路 径 的 长 度 。 


二 、 几 种 重要 的 化 学 图 矩阵 


前 面 介绍 了 有 机 化 合 物 的 化 学 结构 的 图 形 表 示 方 法 以 及 一 些 基 本 的 图 论 概念 ， 这 种 表示 
方法 在 教科 书 上 用 于 表达 化 合 物 结构 信息 有 重大 意义 。 但 是 ， 拓 扑 指数 的 计算 需要 对 化 学 分 
子 图 进行 数值 描述 ， 实 际 上 ， 由 于 图 可 以 用 一 个 矩阵 表示 ， 而 化 学 结构 就 是 一 个 拓扑 图 ， 所 
以 常常 用 矩阵 的 形式 来 表达 化 学 分 子 图 。 本 节 同 样 以 1- 甲 基 -2- 丙 基 环 丁 烷 的 分 子 图 G1 为 例 
介绍 几 种 重要 的 化 学 图 矩阵 。 

1. 邻接 矩阵 (the adjacency matrix, A) 

4BBzABPEXER OU IfHAMPBAKABEER, 由 N 个 顶点 组 成 的 隐 和 氧化 学 分 子 图 G 可 由 一 个 
NXN 的 方 阵 来 表示 。 分 子 图 G1 的 邻接 矩阵 如 下 所 示 : 




































































01000000 

pur 10100 0 

01010000 

0 0101000 

A(G1)= 

01010100 

00001010 

0 0 000101 

o 0 0 0001 5j 
邻接 矩阵 4 (G1) 中 的 每 行 和 每 列 分 别 对 应 化 学 图 中 的 每 个 顶点 ， 邻 接 和 矩阵 中 的 元 素 等 于 1 
时 表示 对 应 的 两 个 顶点 相 邻 ， 等 于 0 时 表示 不 相 邻 。 如 在 第 一 行 第 二 列 的 元 素数 值 为 1， 表 
明 顶 点 1 与 顶点 2 相连， 而 在 第 一 行 第 三 列 的 元 素数 值 为 0， 表 明 顶 点 1 与 顶点 3 没有 相连 ， 
依 此 类 推 。 





2. Laplacian 矩阵 (laplacian matrix, L) 

含有 N 个 顶点 的 隐 和 氧化 学 图 G， 其 Laplacian EL 是 一 个 N XN 的 方 阵 ， 和 矩阵 中 的 
元 素 定 义 为 : Laplacian 矩阵 中 非 对 角 元 素 为 0， 对 角 元 素 为 项 点 vi 的 顶点 度 。 然 后 ， 
Laplacian ERE L 各 元 素 可 根据 下 式 对 角 算 阵 和 邻接 矩阵 进行 计算 而 得 到 ， 即 


L(G) —Dia( 6) —ACGDD 
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由 此 得 到 的 1- 甲 基 -2- 丙 基 环 丁 烷 分 子 图 的 Laplacian EPEL 为 : 


1 -1 0 0 0 0 0 0 
=i d. ex cd ex o o cd 
0 1 2 -1 0 0 0 0 
(10.0 -1 2-1 0 0 0 
L=] ò -1 uk cb 3 1 0 0 
0 0 Q © do Ge =i op 
0 0 G 0 o—L o E oc 

| 0 0 0 0 0 0 -1 ıl 








3. 距离 矩阵 (distance matrix, D) 

TN 个 顶点 的 隐 和 氧化 学 网 G， 其 距离 矩阵 了 是 一 个 N XN Bre. IEE P IR AE 
义 为 : 距离 矩阵 中 元 素 是 指 给 定 原子 之 间 的 最 短 距 离 ， 距 离 在 此 主要 表示 为 拓扑 距离 〈( 即 键 
的 数目 )， 由 此 得 到 的 1- 甲 基 -2- 丙 基 环 丁 烷 分 子 图 G1 的 距离 矩阵 为 : 




















01232345 
1 0121234 
21012345 

p 32101234 
21210123 
$$. 3» owe. 
43432101 
5 4 5 4 3 2 1 0| 








4. 键 -电子 矩阵 (bond-electron matrix, BE) 

AN 个 顶点 的 化 学 图 G， 其 键 -电子 矩阵 也 是 一 个 NN XN 的 方 阵 ， 它 由 Dugundji- 
Ugi 模型 [31 引入。 其 中 的 元 素 定 义 为 ， BE 矩阵 中 的 非 对 角 元 素 是 指 给 定 原子 之 间 的 成 键 数 
目 ， 而 对 角 元 素 则 是 指 给 定 原子 的 自由 价 电荷 。 下 面 以 乙 醛 分 子 的 BE 矩阵 为 例 来 加 以 具体 
说 明 。 
































H4 
ET 
5 | "is 
H6 
un 
D 1. 0 1 1 1l 0] 
102 0 0 0 1 
0 2 4 0 0 0 0 
BE=|1 0 0 0 0 0 0 
1000000 
1000000 
o 0 000 0 0| 
A ExRóBEERI DUE SI. BE 矩阵 给 出 了 分 子 中 所 有 原子 的 价 电 子 ， 包 括 成 键 的 和 自由 的 
电子 ， 应 是 一 个 具有 一 系列 有 趣 的 、 能 直接 反映 化 学 信息 的 数学 特性 矩阵 。 
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第 三 节 ”分子 描述 子 


从 图 9-1 可 以 看 到 ， 要 进行 化 学 构 效 关系 研究 ， 最 主要 就 是 要 获得 适当 的 分 子 描述 子 
(又 叫 分 子 描述 符 )。 一 旦 获得 了 分 子 描述 子 ， 就 可 以 通过 相关 分 析 来 建立 化 学 结构 与 物质 的 
性 质 或 活性 的 相关 关系 ， 即 建立 起 一 个 定量 结构 与 性 质 或 者 是 定量 结构 与 活性 关系 的 数学 模 
型 。 一 般 说 来 ,一 个 典型 的 QSPR/QSAR 的 研究 步骤 如 下 : 中 分 子 结构 的 输入 ; Or T f 
述 子 的 计算 ; @ 分 子 描述 子 的 最 终 选 择 与 确定 ; @ 统 计 模 型 的 建立 ; 加 模型 的 有 效 性 评价 。 
由 此 可 以 看 出 ， 分 子 描述 子 是 QSPR/QSAR 研究 的 关键 点 ， 下 面 将 对 化 学 中 常用 的 分 子 描 
述 子 作 出 必要 的 介绍 。 


一 、 分 子 描述 子 的 定义 


一 个 分 子 描述 子 实质 上 就 是 一 个 分 子 的 数学 表征 ， 也 就 是 将 分 子 的 符号 表征 转换 为 结构 
言 且 的 过 程 。 值 得 指出 的 是 ， 这 种 分 子 的 数学 表征 必须 是 对 于 分 子 的 大 小 和 原子 数 是 不 变 
量 ， 并 能 方便 使 用 统计 学 方法 来 建立 模型 才 行 。 可 以 说 ， 一 个 分 子 结构 描述 子 包含 的 信息 取 
决 于 两 个 因素 : 中 化 合 物 的 分 子 表征 ; @ 描 述 子 计算 中 使 用 的 方法 。 


二 、 分 子 描述 子 的 分 类 


首先 介绍 一 下 由 Gasteiger 在 其 化 学 信息 学 [下定 义 的 有 关 分 子 描述 子 的 分 类 概念 。 他 们 
认为 ， 分子 结构 描述 子 可 根据 描述 子 的 数据 类 型 (参见 表 9-5) 和 化 合 物 的 分 子 表征 (参见 
表 9-6) 来 进行 分 类 。 

实际 上 ， 从 表 9-5 和 表 9-6 可 以 看 出 ,分 子 的 关键 结构 描述 了 化 学 的 组 成 、 分 子 特征 出 
现 的 次 数 、 分 子 的 各 类 官能 团 、 杂 原子 数 等 与 化 学 性 质 相关 的 结构 信息 。 男 外 ,分 子 图 的 结 
构 基 元 用 布尔 排列 来 表征 ， 如 果 某 种 结构 出 现在 分 子 或 子 结构 中 ， 则 该 位 置 设 为 1 ( 真 )， 
否则 为 0〈 假 )。 在 排列 上 的 某 一 位 可 以 编译 为 一 种 特定 的 官能 团 〈 如 羧基 酸 、 胀 ) 、 结 构 元 
素 或 特定 元 素 的 出 现 次 数 〈 如 碳 原子 ) 。 然 而 ， 关 键 结构 定 义 为 一 个 整数 的 排列 ， 排 列 中 的 
每 一 个 元 素 包 含 了 特征 出 现 的 次 数 。 

根据 结构 相似 性 质 相似 原理 ， 在 相似 性 分 析 与 搜索 中 高 度 相似 的 结构 应 与 对 标 化 合 物 有 
相似 的 物理 化 学 性 质 和 生物 活性 ， 这 就 是 分 子 描述 子 构成 的 一 个 基本 原则 。 


按 描述 子 数 据 类 型 对 分 子 描述 子 分 类 














































































































































































































数据 类 型 类 型 描述 子 举 例 

布尔 值 有 至 少 一 个 芳香 环 的 有 机 化 合 物 
整数 杂 原 子 数 

实数 分 子 量 

向 量 偶 极 矩 

张 量 电子 极 化 率 

数量 场 静电 势 

向 量 场 静电 势 梯度 即 场 











按 分 子 表征 的 维 数 来 分 类 描述 子 




















分 子 表征 描述 子 举 例 
iB 原子 数 分 子 量 ,平均 分 子 量 , 氧 原子 数 , 碳 原子 数 , 杂 原子 数 
键 数 旋转 键 数目 , 环 的 数目 ,三 元 环 , 四 元 环 ,五 元 环 ,六 元 环 ,七 元 环 等 ,分 子 组 成 
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续 表 
分 子 表征 描述 子 举 例 


ELEC Cs p? , 仲 碳 数 (sp?), 叔 碳 数 (sp!), 环 仲 磋 (sp’), 环 仲 矶 (sp’), 环 仲 磋 
(sp ) ,无 取代 芳香 碳 , 取 代 碳 , 伯 碳 数 (spz ) , 仲 碳 数 (sp2), 叔 碳 数 (sp1), 氧 键 受 
体 / 给 体 数 据 , 亚 胺 , 烯 胺 , 产 胺 , 胺 不 饱和 度 , 硫 酮 ,二 烯 官能 团 ( 一 C 一 ) 端 基 C、 
片段 数 异 氰 酸 盐 (或 酯 ) 、 硫 氰 酸 盐 (或 酯 ) 氨基 (脂肪 族 / 芳 香 族 ; 伯 、 仲 .上 投 )、 异 硫 氰 酸 
盐 ( 或 酯 ) 胺 (脂肪 族 / 芳 香 族 ; 伯 、 仲 ,上 权 ). 重 氮 基 中 N、 葵 酚 、 乙 醇 基 (脂肪 族 / 芳 
ID T B S BO LESE RATS mi N, X. DK. E E SZ DC. CURE 16 DEC. IIS TURTLE 
亲 水 的 因子 、 含 硝 基 的 官能 团 等 










































































分 子 总 能 量 , 标 准 生 成 热 , HOMO( 最 高 充满 分 子 轨道 能 量 ), LUMO( 最 低 未 
量子 化 学 描述 符 | 充满 分 子 空 轨道 能 量 ) , 偶 极 矩 ,绝对 硬度 , 软 度 ,HOMO/LUMO 比值 , 密 立根 电 
负 性 ,原子 电荷 (Gasteiger 等 ) 等 




















拓扑 描述 子 , Wiener 指数 ,分 子 连接 性 指数 ,基于 特征 值 的 描述 子 ( 如 Burden 
2D 拓扑 指数 特征 值 ),2D 自 相关 描述 子 ,信息 指数 , 边 邻 接 指 数 ,拓扑 电荷 指数 ,Randic 指数 ， 
Balaban 指数 ,Kier-Hall 分 子 连接 性 指数 ,E-state 指数 ,Basak 的 信息 指数 























RDF 描述 子 ,WHIM 描述 子 ,3D-MoRSE 描述 子 ,几何 描述 子 ( 如 CPSA 描述 
子 ) ,GETAWAY 描述 子 ,Randic 分 子 谱 描 述 子 ,基于 三 维和 矩阵 拓展 的 描述 子 如 















































m 几何 描述 子 3D-wiener, 3D-balaban, RDF 描述 子 .CPSA 描述 子 .WHIM 描述 子 , 数 个 重要 的 
几何 描述 子 , 如 偏心 度 等 
3D- 表 面 性 质 平均 分 子 静 电势 , 玖 水 势 , 氧 键 势 
3D- 网 络 性 质 比较 分 子 场 分 析 (ComFA) 
4D 3D 坐标 十 构象 
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在 上 述 各 种 分 子 描述 子 中 ， 大 都 是 直接 以 分 子 结构 作为 变量 对 物理 、 化 学 或 生理 活性 进 
行 回归 分 析 。 而 化 合 物 结构 的 拓扑 指数 表征 方法 则 均 是 将 分 子 作 为 一 个 整体 来 考虑 其 性 质 ， 
被 称 作 二 维 定量 构 效 关系 。 

二 维 定量 构 效 关系 出 现 之 后 ， 不 但 在 物理 化 学 性 质 的 研究 中 ， 而 且 在 药物 化 学 领域 也 产 
生 了 很 大 影响 ， 人 们 对 构 效 关系 的 认识 从 传统 的 定性 水 平 上 升 到 定量 水 平 。 定 量 的 结构 活性 
关系 也 在 一 定 程 度 上 揭示 了 药物 分 子 与 生物 大 分 子 结合 的 模式 。 在 这 些 方法 的 指导 下 ， 人 们 
还 成 功 地 设计 了 诺 气 沙 星 等 唑 诺 酮 类 抗菌 药 。 

化 合 物 的 结构 多 用 图 来 表示 ， 通常 这 样 的 图 称 为 结构 图 或 分 子 图 。 不 同 的 化 合 物 其 结构 
图 也 不 同 ， 于 是 ， 如 能 将 不 同 的 化 学 结构 图 数量 化 ， 并 通过 它 将 结构 与 活性 或 性 能 联系 起 
来 ， 这 就 是 下 面 将 要 介绍 的 分 子 拓扑 指数 方法 。 分 子 拓扑 指数 理论 是 建立 在 图 的 不 变量 基础 
之 上 的 。 它 试图 以 这 个 拓扑 不 变量 与 分 子 的 理化 性 质 和 生物 分 子 的 活性 建立 某 种 对 应 关系 。 
分 子 拓扑 指数 在 一 定 程度 上 表达 了 分 子 的 本 性 ， 它 以 键 合 原子 和 键 合 方式 为 研究 对 象 ， 认 为 
这 两 个 方面 决定 了 分 子 的 结构 和 功能 。 由 于 这 种 看 法 抓 住 了 分 子 的 主要 结构 信息 ， 同 时 ， 也 
由 于 拓扑 指数 法 在 数学 处 理 上 相对 于 量子 化 学 更 具有 简单 性 ， 因 此 ， 在 化 学 、 生 物 学 、 药 物 
学 、 医 学 、 物 理学 甚至 社会 科学 中 都 具有 重要 的 应 用 价值 。 

拓扑 指数 是 指 基于 化 合 物 分 子 图 特定 的 拓扑 特征 而 得 到 的 对 其 结构 进行 表征 的 数字 描述 
子 。 与 其 他 类 型 的 结构 描述 子 ， 如 几何 或 量子 描述 子 相 比 ， 拓 扑 描述 子 有 其 独特 优势 。 它 能 
由 化 合 物 的 化 学 分 子 图 通过 简单 计算 而 得 到 ， 并 能 直接 反映 分 子 的 枝 权 、 形 状 及 大 小 信息 。 
某 种 化 合 物 拓扑 指数 的 获取 一 般 需 要 三 个 过 程 : 中 有 机 化 合 物 化 学 结构 的 图 形 化 ; 外 化 学 分 
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子 图 的 矩阵 化 ;加 分 子 图 矩阵 的 数值 化 。 

最 早 引 入 此 方法 的 是 Wiener[23] 。 实 际 上 ， 在 1874 年 数学 家 Sylvester 就 指出 ,一 个 化 
学 图 可 用 矩阵 表示 ， 这 个 矩阵 叫 拓 扑 抢 阵 或 邻接 矩阵 ， 如 化 合 物 2,3- 二 甲 基 戊 烷 CIO 和 
1,1,2- 三 甲 基 环 丙烷 〈[)， 它 们 的 结构 图 与 隐 和 氧 图 示 于 网 9-3: 























| H4C CH; 
CH — CH Sá 
PAS X A^ X 
H3C w CH H2C 一 一 CH 
CH; CH; 


(a) (b) 


EEES KAH 2,3-— EXE (1) 和 1,1,2- 三 甲 基 环 丙 烷 (I) 
的 结构 图 (a) SHAR (b) 





可 分 别 用 邻接 和 矩阵 A1 和 A1 表示 ， 此 和 矩阵 中 的 元 素 cz 为 


“_/0 原子 i 和 j 没有 键 合 时 
^U li 原子 i 和 j 键 合 时 


CIO 和 (J 〉 这 两 个 化 合 物 的 邻接 矩阵 分 别 为 
r 0] - - 

















010000 
001000 
101001 0 
00 1000 
010 100 1 
1 10 11 0 
Aj17|0. 0 1 O 1 0 0 Aqg-— 
00 10 1 0 
0 0 01000 
0 0 1100 
0100000 
o 0 00 1 0J 
[o 0 100 0 0| 
现 以 化 合 物 2,3- 二 甲 基 戊 烷 CTO 为 例 来 加 以 具体 说 明 。 从 图 9-3 可 以 看 出 ， 它 的 (1,2)、 











(2,3)、(2,6)、(3,7)、(3,4)、(4,5) 结 点 之 间 有 边 ， 故 和 矩阵 的 对 应 行 与 对 应 列 的 元 素 是 1。 
这 种 数字 表示 法 可 以 把 化 合 物 的 分 子 经 适当 变换 存 人 计算 机 中 。 可 以 看 出 上 述 和 矩阵 是 以 主 对 
角 线 为 轴 的 对 称 和 矩 阵 ， 和 矩阵 中 的 每 一 行 或 每 一 列 的 元 素 之 和 即 为 分 子 图 中 相应 编号 的 那个 碳 
原子 的 点 价 。 这 样 ， 化 学 结构 就 可 用 拓扑 矩阵 中 的 具体 数字 来 描述 。 分 子 图 中 的 点 价 : 

















OI = 
AP, n 点 数 即 矩阵 的 阶 。 就 是 在 这 拓扑 邻接 和 矩 阵 的 基础 上 ， 化 学 家 们 提出 了 很 多 种 分 
子 拓扑 指数 ， 据 Trinajstic 等 [59 于 1986 年 在 数学 化 学 杂志 上 的 评述 ， 在 当时 至 少 就 有 39 种 
不 同 的 拓扑 指数 ， 而 巴 纳 班 (Balaban)!? 溃 在 一 篇 评论 中 指出 ， 大 约 存 在 一 百 多 种 分 子 拓扑 
指数 。 在 本 节 只 介绍 几 种 应 用 最 多 的 和 新 近 发 展 的 拓扑 指数 。 
一 、Wiener 拓扑 指数 


最 早 将 拓扑 指数 引入 化 学 的 是 Wiener? 。 其 定义 为 : 分 子 中 所 有 不 同 碳 原子 之 间 的 距 
离 总 和 即 为 Wiener 拓扑 指数 (Wiener 指数 ) ， 即 


W (Wiener 38380 — (224 52/2 (9-5) 
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后 来 ， 此 定义 被 拓 广 至 分 子 中 所 有 不 同 非 氢 原子 之 间 的 距离 总 和 。 
现 仍 以 化 合 物 2,3- 二 甲 基 戊 烷 为 例 来 加 以 具体 说 明 。 可 以 像 定 义 连接 矩阵 那样 来 定义 一 


个 距离 矩阵 ， 对 于 2,3- 二 甲 基 戊 烷 ， 其 距离 矩阵 D 18 
012342 3 
] xo xo X 
2 1 0122 1 
Di=|3 2 10 1 3 2 
4 go 21043 
2 123403 
Z2 1o» 308 














注意 到 上 述 距 离 矩 阵 也 是 一 个 对 称 和 矩阵 ， 所 以 ，Wiener 指数 实际 就 是 对 上 述 距 离 矩 阵 的 上 
三 角 部 分 或 下 三 角 部 分 的 所 有 元 素 求 和 。Wiener 指数 在 一 定 程 度 上 反映 了 分 子 的 特性 ， 所 
以 它 首 先 就 被 用 来 研究 饱和 脂肪 烃 的 沸点 的 变化 规律 (参见 表 9-12) 。 


二 、Randic 分 支 指 数 和 分 子 连 接 性 指数 


1. Randic 分 支 指数 

以 分 子 式 Ce Hi 为 例 ，CeHn 的 5 个 已 烷 异 构 体 的 结构 式 、 隐 和 氧 图 及 其 对 应 的 拓扑 抢 阵 
都 不 相同 。 它 们 在 结构 式 中 的 主要 不 同 完全 是 由 它们 的 分 支 程度 不 同 而 定 ， 和 希望 能 找到 一 个 
“ 数 ”， 把 它们 之 间 在 分 支 程 度 的 区 别 表示 出 来 。Randic 指数 正 是 这 样 一 种 简便 的 “分 支 指 
数 ”。 它 可 由 图 9-4 形象 地 表示 出 来 。 

Randic 分 支 指数 的 定义 可 由 式 (9-6) 给 出 : 


LX — XO / m Yn) (9-6) 


式 中 的 求 和 将 包括 所 有 的 边 〈 即 键 );， 其 中 mw 和 nn 分 别 表 示 该 边 〈 共 价 键 》 所 连 的 两 个 碳 原 
子 的 点 价 ， 以 符号 1X XR. 

1X 可 以 定量 反映 开 链 饱和 烃 的 多 种 物理 性 质 ， 但 是 尚 存在 下 列 几 个 问题 : 

CD 含 双 键 或 三 键 等 化 合 物 不 符合 这 个 指数 给 定 的 规律 ; 

O 环 状 化 合 物 不 能 处 理 ， 因 为 键 的 数 日 比 开 链 多 ; 

C 含 杂 原子 的 化 合 物 不 能 包括 在 内 。 

对 此 ， 量 子 化 学 家 Kier [26 提出 了 分 子 连 接 性 法 ， 对 Randic 分 支 指数 加 以 扩展 。 

2. 分 子 连 接 性 指数 

Kier 提出 两 个 基本 假设 。 第 一 个 假设 : 表示 化 合 物 分 子 结构 和 它们 若干 性 质 间 的 定量 
关系 所 需要 的 “结构 信息 ”包含 在 化 合 物 分 子 的 隐 和 氧 图 中 。 对 于 烷烃 ， 每 个 碳 分 子 的 点 价 
0; 等 于 4 一 h。 其 中 4 是 指 碳 原子 的 价 电子 数 , n 是 所 连 的 氧 原 子 数 。 杂 原子 的 价 分 子 连接 
性 指数 用 6; 表示 ,6; —Z^ h, KP Z* 是 杂 原 子 的 价 电子 数 ， 例 如 对 于 乙醇 中 的 OH. 
co 一 6 一 1 王 5。 下 面 还 给 出 了 几 个 实例 ， 其 余 参见 表 9-7, 






























































CH;CH;OH 63 一 6 一 1 一 5 
(CH3); N 84 =5—0=5 
(CH3); N? 8$ =5—0+1=6 
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CH —CH, CH; 
BS 


表 9-7 
基 m 
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000001 
000001 
000001 
000010 
000101 
111010 


000001 
000001 
000010 
000010 
001101 
110010 


000001 
000001 
000010 
000011 
001100 
110100 


000001 
000010 
000100 
001001 
010001 
100110 


000001 
000010 
000101 
101010 
010100 
101000 























Randic 分 支 指数 示意 图 


一 些 杂 原子 的 价 分 子 连接 性 点 价 5， 
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续 表 
基 团 0 基 团 ô 

0— 6 —F (—)20 
—O 6 一 Cl 0. 690 
O( 硝 基 上 氧 ) 6 一 Br 0. 254 
OORRWS ik ESO 6 —1 0. 085 
OC nj rp) 6 
ET pi ET BOR IS]RS fp 3. jog ^E FR IBIRS 07 f. A AR DS pa CT B9 BE ZR Dr 

射 率 进 行 修正 而 得 到 它们 的 经 验 点 价 96”《〈 见 表 9-7). 


第 二 个 假设 : 化 合 物 分 子 的 性 质 和 隐 乞 图 的 连接 性 指数 间 存 在 某 种 函数 关系 ， 可 用 连接 
函数 Cox) 来 反映 性 质 (P)， 也 就 是 说 化 合 物 的 性 质 是 和 分 子 连接 性 有 关 的 。 可 用 式 (9-7) 
表示 : 














C a» —bod- 31b; Gn" X, (9-7) 








式 中 ，6;(m) 可 称 为 性 质 常数 ， 是 根据 观察 值 经 回归 计算 或 理论 计算 而 得 ; bo 为 一 常数 ; 
"X, 为 分 子 连接 性 指数 ; t 为 子 图 类 型 ;，m 为 图 中 连接 的 边 数 。 

子 图 有 下 述 四 种 类 型 : 

CD 路 径 项 路径 项 以 上 一 p 表示 ， 它 由 子 图 点 价 〈 只 含 碳 原子 ) 不 大 于 2 的 子 图 构成 ， 
如 包括 杂 原 子 在 内 ， 则 每 个 点 至 多 和 两 条 边 相 连 的 子 图 叫做 路 径 项 。 以 下 给 出 几 个 路 径 项 的 
例子 : 





























pe > 一 ”一 一 人 
(2) 秘 项 ” 簇 项 以 1 二 c 表示 ， 它 的 子 图 点 价 (只 含 碳 原子 ) 至 少 为 3 或 4， 但 不 包括 点 


价 为 2 的 子 图 构成 ， 假 如 包含 杂 原 子 ， 则 每 个 中 心 点 和 3 条 边 或 4 条 边 相 连 的 子 图 叫做 簇 
项 ， 以 下 给 出 了 几 个 簇 项 的 例子 : 


A A Ae c 


G) 路 径 / 簇 项 ”路径 / 簇 项 以 1 二 pc 表示 ， 它 的 子 图 点 价 除 3 或 4 外， 还 必须 有 2 的 点 
价 存在 ,同样 ， 如 包含 有 杂 原 子 ， 其 定义 按 杂 原子 的 路 径 项 、 艇 项 综合 定义 ,具体 例子 如 下 
所 示 : 

















Ao x 人 M 


(4) BEL 链 项 以 1 一 CH 表示 ， 它 的 子 图 至 少 包 含有 一 个 环 ， 下 面 给 出 了 几 个 具体 


aLa 


有 了 上 述 两 个 假设 和 有 关 定 义 ， 就 可 求 得 分 子 连接 性 指数 了 。 
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3. 分 子 连 接 性 指数 的 求法 
分 子 连接 性 指数 *X, 是 以 所 有 不 同类 型 的 相连 的 子 图 求 和 而 得 ， 以 式 (9-8) 表示 : 
Wu cx (9-8) 


RP, n 是 价 为 mn 的 + 类 子 图 的 数目 : ”S; 是 子 图 项 〈 详 见 下 面 讨论 ); i 是 子 图 序号 。 分 子 
拓扑 性 质 最 关键 的 关系 取决 于 点 价 。 
子 图 项 计算 公式 如 下 ， 

















mS; —II(0;)l* (9-9) 


AX (9-8) 和 式 (9-90 可 知 ， 欲 计算 一 个 分 子 的 分 子 连接 性 指数 ， 必 须 训 析出 所 有 的 子 
图 ， 如 有 异 戊 烷 的 子 图 如 表 9-8 所 示 。 


异 戊 烷 的 子 图 表 ” 




















阶 m( 即 边 数 ) 
子 图 类 型 
1 2 E 4 
A 入 A 
I J 
EV A 
Rice cn P 


D 它 的 隐 氢 图 为 N. 


4. 分 子 连 接 性 指数 的 计算 示例 
(OD 零 阶 项 oX 的 计算 零 阶 项 的 子 图 是 由 一 个 点 构成 的 子 图 ， 其 边 数 m ONE. dT ERA 
式 如 下 : 


ox = Do”? 


例如 正 戊 烧 ， 它 的 隐 握 图 为 六 > 全， 由 








0% = 267 = IWI H1N2 +12 +12 十 1/Y1 





1 
又 如 异 成 烧 ， 它 的 隐 氢 图 为 Lha m 








o% ES LJ 14/31/38 4/4419 





又 如 新 友 烧 ， 它 的 隐 所 图 为 aL. n 








oX = D ar =N FNT ALNE IAA FNI 


第 九 章 ”化 学 构 效 关系 的 研究 方法 | 643 | 





(2) 一 阶 项 1X 的 计算 ”一 阶 项 的 子 图 是 由 两 个 点 构成 的 子 图 ， 其 边 数 为 1， 计 算 公 
式 如 下 : 


we 
仍 举 几 个 具体 的 例子 来 具体 说 明 ， 
Mwe EKRAR AAN: EM TED: ZU AN 
所 以 ， 它 的 一 阶 连 接 性 指数 为 














1X =X (9,6) 1? —1//1X2 1//2X2--1/4/2X2--1//1X2 —2.414 


1 
1 
又 如 异 友 烧 ， 它 的 隐 氧 图 为 Ra 它 的 子 图 为 : | AN 
1 2 ? 3 $ 
它 的 一 阶 连接 性 指数 为 


1X = X (8d) V? —1//1X3-1//1X3 -1/4/3X2--1//1X2 =2. 270 











] 1 
再 如 新 戊 烧 ， 它 的 隐 氧 图 为 “外 1; 它 的 子 图 为 : | A Á 
1 1 4 ;1 ; 1 ; 4—1 





它 的 一 阶 连 接 性 指数 为 
IX = 21(0048,) 17? —1/ XA 1/4/1X4 T 1//1X4-1/A1X4 —2. 000 


(3) 二 阶 项 2X 的 计算 ”二 阶 项 的 子 图 是 由 3 个 点 构成 的 子 图 ， 其 边 数 mm 为 2， 计 算 公 
式 如 下 : 











2X = 31(8,0,0,)-/2 




















2 s 2-2 € 2 
WERK. ETE E e v zu 
所 以 ， 它 的 二 阶 连 接 性 指数 为 
2%: = 21(8;,8,8,) V? — : | | l —].354 
1X2X2 2X2X2 2X2X1 
> p n l | 3 3 1 
对 于 异 成 烷 ， 它 的 子 图 是 J3 ; 3 sog V 
1 Ir Q» 2? 2 
二 阶 连 接 性 指数 为 
二 | : | : | L x DP 











1X3X1 1X3X2 1X3X2 3X2X1 


1 1 1 1 
对 于 新 友 烷 ， 它 的 隐 氢 图 为 从 1; 它 的 子 图 为 : 4 ; 和 id i ÁA i ax ; A 
l^ 1 1 ] 1 1 1 
二 阶 连 接 性 指数 为 





1 
2X = 21(8;0,0,) |? -—6X — 3. 000 
J1XAXI 
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(4) 三 阶 项 5X 的 计算 ”三 阶 项 的 子 图 一 般 是 由 4 个 点 构成 的 子 图 ， 其 边 数 mx 为 3， 计 
算 公 式 如 下 : 





$Yy— (8;0,0,0,) 2 


三 阶 项 可 能 有 3 种 类 型 的 子 图 ， 即 路 径 项 、 簇 项 和 链 项 。 如 果 是 链 项 ， 则 三 阶 项 是 由 三 个 
点 、 三 条 边 所 组 成 。 
下 面 仍 以 正成 烧 、 异 成 烧 和 新 成 烷 为 例 来 说 明 三 阶 项 的 计算 。 对 于 正成 烧 ， 它 只 有 路 径 
2 2. 2 


1 
项 ， 其 子 图 是 "rom E d 


所 以 ， 它 的 三 阶 连接 性 指数 为 























1 1 
8 X = 21(8,00,0,) V? — | 一 0.707 
1X2X2X2 4J2X2X2X1 


对 于 异 戊 烧 ， 它 的 三 阶 项 有 两 种 ,一 种 是 路 径 项 ， 其 子 图 有 


D ; LA 


l 
] 2 








故 其 三 阶 路 径 项 为 


1 1 
3X p 21(8;8,8,0,) /? — | — 0.816 
1xX3X2X1 1xX3X2*X]1 








1 
另 一 种 是 能 项 ， 其 子 图 为 43 
l1 2 


故 其 三 阶 簇 项 为 
1 1 


3X .= M(30;0,8,0,) |? — | 一 0. 408 
1X3X2X1 1xX3X2Xl1 











对 于 新 成 烧 ， 则 只 有 三 阶 簇 项， 而 无 三 阶 路 径 项 。 其 三 阶 簇 项 子 图 为 





故 其 三 阶 艇 项 为 
1 


3X .= 2066661) 12=4X 一 2. 000 
VIXIXIX4 


(5) 四 阶 项 入 的 计算 ”四 阶 项 的 子 图 一 般 是 由 5 个 点 构成 的 子 图 ， 其 边 数 mx 为 4， 计 
算 公 式 如 下 : 








4x = 21(8;0,0,0,0,) ? 


四 阶 项 可 能 有 4 种 类 型 的 子 图 ， 即 路 径 项 、 艇 项 、 链 项 及 艇 项 / 链 项 。 如 果 是 链 项 ， 则 四 阶 
项 是 由 4 个 点 和 4 条 边 所 组 成 。 


2. -2 
对 于 正成 烷 ， 它 只 有 路 径 项 ， 其 子 图 即 为 隐 氢 图 AA 
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所 以 ， 它 的 四 阶 连 接 性 指数 为 


1 
Xp = 21(8;0;04010,) 17? — —0. 354 
/1X2X2X2X1 


5t Bo N BE JG UU TER TE X, LEUREN X, gi UAE VU DLSEIW/BEDD Xu. Rug 

















f TL BERT" Fe boo e Rs. 1 
BOTUREICREHLRUBIEAUR R 


它 的 四 阶 连接 性 指数 为 
l 














1X pc 一 21(8;8,8,0,0,) 12 一 — 0. 408 
Jl1X1X3X2X1 
新 戊 烷 既 无 四 阶 路 径 项 :X ,又 无 四 阶 簇 项 / 链 项 X 。， 而 只 有 四 阶 复 项:X .， 其 四 阶 簇 
1 
项 4X , 子 图 也 是 隐 氧 图 1 
它 的 四 阶 连接 性 指数 为 
1X,— 21(8,0,0,0,04,) S : — 0.509 
J1X1XIXIXA4 
表 9-9 列 出 了 庚 烷 各 种 异 构 体 的 各 类 子 图 数目 。 
TO 庚 烷 异 构 体 路 径 、 徐 、 路 径 / 签 项 的 子 图 数目 表 
X y 5x4 ex [i 
隐 和 握 图 A AS 
p c p c pc p c pc p c pc p c pc 
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、 分 子 识别 数 
无 论 是 分 子 的 Wiener 指数 还 是 分 子 的 Randic 分 支 指数 都 存在 着 退化 性 ， 即 不 同 的 分 子 
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具有 相同 的 指数 ， 如 在 表 9-10 中 ，2,2- 二 甲 基 戊 烷 的 Wiener 指数 为 46， 而 2,3- 二 甲 基 戊 烷 
的 Wiener 指数 也 为 46， 这 就 说 明 在 Wiener 指数 指标 中 存在 着 退化 性 ， 像 这 样 的 例子 还 可 
举 出 不 少 ; Randic 的 分 支 指数 的 退化 性 没有 Wiener 指数 那么 严重 ,但 也 存在 着 同样 的 退化 
性 ，3- 甲 基 庚 烷 与 4- 甲 基 庚 烷 就 可 产生 同样 的 Randic 分 支 指数 。 所 以 ,在 1984 年 ，Randic 
又 提出 了 分 子 识别 数 这 一 新 的 分 子 拓扑 指数 [2 。 分 子 识别 数 这 一 指标 实际 上 是 分 子 连接 性 
指数 和 分 子路 径 数 的 一 种 结合 ， 或 更 精确 地 说 ， 是 一 种 加 权 的 分 子路 径 数 ， 其 中 权 值 就 与 分 
子 连接 性 相关 [2 。 在 给 出 分 子 识别 数 的 定义 之 前 ， 先 看 看 有 关 分 子 和 原子 的 路 径 数 。 表 9-1 
给 出 了 2- 甲 基 丁 烷 的 全 部 有 关 路 径 数 。 有 关 该 表 的 具体 理解 可 参看 图 9-5。 结 合 表 9-10 和 图 
9-5 可 以 看 到 ， 在 计算 路 径 数 时 ， 实 际 上 将 只 有 一 个 点 ， 即 路 径 等 于 零 时 ， 也 算 存 在 一 个 路 
径 数 ; 另外 ,在 计算 路 径 大 于 零 的 路 径 数 时 ， 分 子 的 路 径 数 是 原子 路 径 数 的 二 分 之 一 ， 这 是 
因为 在 计算 原子 路 径 数 时 ， 同 一 路 径 计算 了 两 次 (参见 图 9-5) 。 在 介绍 了 路 径 数 概念 基础 
上 ， 分 子 识别 数 的 数学 定义 可 由 下 式 给 出 : 


MIDN = Xwoj 十 1/22vw 
E k 






































式 中 , w 是 路 径 权 重 ; 下 标 07 表示 所 有 长 度 为 零 的 路 径 ; 下 标 ik 则 表示 所 有 长 度 大 于 
零 的 路 径 。 有 关 权 重 的 计算 由 下 述 原则 确定 : 

(1) 长 度 为 零 的 路 径 的 权重 都 为 1; 

(2) 长 度 大 于 零 的 路 径 的 权重 由 其 分 子 连 接 性 指数 确定 。 
表 9-11 给 出 了 2- 甲 基 丁 烧 的 全 部 有 关 路 径 权 重 。 从 表 中 可 以 看 出 ，2- 甲 基 丁 烷 的 分 子 
识别 数 为 8. 6968019, 


2- 甲 基 丁 烷 的 原子 和 分 子路 径 数 一 览 













































































路 径 长 度数 
原子 编号 总 和 
0 1 2 3 4 

1 1 1 2 1 0 5 
2 1 3 1 0 0 5 
3 1 2 2 0 0 5 
4 1 1 1 2 0 5 
5 1 1 2 1 0 5 

分 子路 径 数 5 4 4 2 0 

分 子路 径 数 总 和 :15 

2- 甲 基 丁 烷 的 原子 和 分 子路 径 权 重 一 览 表 
路 径 长 度数 
原子 编号 总 和 
0 1 2 3 4 

1 1 0. 5774 0. 5690 0. 1667 0 2. 3131 
2 1 1. 5629 0. 2887 0 0 2. 8516 
3 1 1. 1154 0. 4714 0 0 2. 5868 
4 1 0. 7071 0. 2887 0. 3333 0 2. 3291 
5 1 0. 5774 0. 5690 0. 1667 0 2. 3131 

分 子路 径 权 重 5 2. 2701 1. 0934 0. 3333 0 

分 子 识 别 数 :8. 6968019 

K 9-12 列 出 了 部 分 C Cs 烷烃 的 沸点 、Wiener 指数 、Randic 分 支 指 数 和 分 子 识别 数 ， 
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从 表 中 可 以 看 出 ， 煤 烃 的 沸点 与 Wiener 指数 、Randic 分 支 指数 和 分 子 识别 数 都 存在 较 好 的 
线性 相关 性 ， 其 中 沸点 与 Wiener 指数 的 相关 系数 为 0.971; 沸点 与 Randic 分 支 指数 的 相关 
系数 为 0.994; 分 子 识别 数 与 沸点 的 相关 性 最 好 。 









































































































































































































































路 径 长 E 
原子 序号 
D 3 i : 2- 甲 基 丁 烧 的 隐 和 所 图 
1 1 1 一 2 ro 1—2—3—4 "i 
O—O—O— O 
2 2 a 2—3— S 
2—5 
3 3 3—2 3—2—5 
3—4 3—2—1 
4 4 4—3 4—3—2 TRET: 
4—3—2—5 
5—2— 
5 5 5—2 Re 
与 表 9-10 相对 应 的 路 径 子 图 
部 分 C,— C, 烷烃 的 沸点 、Wiener 指数 、Randic 分 支 指数 和 分 子 识别 数 
化 合 un H/C Wiener 指数 Randic 分 支 指数 分 子 识 别 数 
2- 甲 基 丙 烷 一 11.73 9 1.732 6. 7321 
IE T à —0. 50 10 1.914 6. 8713 
2,2- — H XE DS oc 9. 50 16 2.000 8. 5000 
2-H JE T i 27.85 18 2. 270 8. 6968 
正成 烷 36. 07 20 2. 414 8. 8499 
2 ,2- 二 甲 烷 49. 74 28 2.561 0. 4660 
2,3-— HF 3E T Ax 57. 99 29 2.643 0. 5236 
2- 甲 基 戊 烷 60. 27 32 2.770 10. 6792 
3- 甲 基 戊 烷 63. 28 31 2. 808 0. 6759 
正己 烷 68. 74 35 2.914 10. 8392 
2,2- 二 甲 基 戊 烷 79. 20 46 3. 061 2. 4490 
2,4-— 成 烷 80. 50 48 3. 126 12. 5092 
2.2,3-— HB JE T oe 80. 88 42 2.943 2. 2931 
3.3-— 成 烷 86. 03 44 3. 121 12. 4427 
2,3- 二 甲 基 戊 烷 89. 78 46 3.181 2. 5052 
2- 甲 基 己 烷 90. 05 52 3. 270 12. 6704 
3- 甲 基 己 烷 91. 85 50 3. 308 2. 6600 
3- 乙 基 戊 烷 93. 48 48 3. 346 12. 6692 
正 庚 烷 98. 42 56 3.414 2. 8338 














为 计算 分 子 识别 数 ，Randic 和 Wilkins 55292 SEE T 


























计算 一 般 分 子 的 分 子 识 别 数 将 比较 容易 。 
Randic 对 400 多 个 分 子 结构 ， 其 中 包括 10 个 碳 原子 以 下 的 所 有 烷烃 进行 了 分 子 识别 数 


的 计算 ， 没 有 发 现 退 化 怕 











个 计算 该 值 的 Basic 程序 ， 用 它 来 


E. 1985 年 ，Trinajstic 等 对 包括 20 个 碳 原子 以 下 的 618000 种 烷烃 


结构 进行 了 系统 的 计算 ， 发 现 其 中 有 124 种 化 合 物 的 两 个 异 构 体 和 1 种 化 合 物 的 3 个 异 构 体 
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分 别 具 有 相同 的 分 子 识 别 数 ， 如 2,3- 二 甲 基 -6- 乙 基 -5- 异 两 基 辛 烯 与 2,6- 二 甲 基 -5- 乙 基 -3- 异 
两 基 辛 烯 就 是 其 中 的 一 个 例子 [80 ， 它 们 具有 完全 相同 的 分 子 识 别 数 。Randic 后 又 对 分 子 识 
别 数 进行 了 改进 ， 提 出 了 第 二 分 子 识 别 数 ， 有 兴趣 的 读者 可 参阅 文献 [31] 。 


四 、 苏 尔 效 分 子 拓扑 指数 


1989 Æ, JIK (Schult) 又 提出 了 他 称 为 分 子 拓扑 指数 (MTD 的 新 指标 62 ， 这 一 
拓扑 指标 的 优点 是 它 的 退化 性 不 严重 ， 很 多 上 述 方法 中 具有 相同 特征 数 的 分 子 对 ， 它 们 的 苏 
尔 兹 分 子 拓扑 指数 是 不 相同 的 。 为 方便 起 见 ， 现 仍 以 2- 甲 基 丁 烷 为 例 来 说 明 苏 尔 兹 分 子 拓扑 
指数 构成 方法 。2- 甲 基 丁 烷 的 隐 和 氧 图 示 于 图 9-3， 它 的 距离 矩阵 D), BERERE CAO 和 各 
原子 的 点 价 矢 量 oo WF: 


























0 1 2 3 2 0 1 0 0 0 
10 12 1 10100 
D—|2 10 1 2 A—|0 1 0 1 0 
3 2 10 3 0 0 1 0 0 
2123 0 0 1 0 0 0 


v=[1 3 2 1 1] 


Muller 等 曾 指出 [33] ， 对 邻接 矩阵 的 每 一 行 或 者 是 每 一 列 加 合 即 可 得 点 价 矢 量 "。 在 此 ， 
苏 尔 效 是 用 的 卫 和 矩阵 和 A4 和 矩阵 之 和 ， 即 (D 十 A)。 


0 1 2 3 2 01 000 0.2 2 3 2 
1 0 L2. 0 1 0 0 2 0 2 2 2 
D+A =|2 1 0 1 2|+|0 1 010—220 2 2 
3 2 1 0 3 0 1.0 0 2 2 10 3 
212 30 1000 22.2 30 


继续 对 (DT+A4) 与 ”的 乘积 所 得 矢量 的 所 有 元 素 求 和 就 得 到 了 苏 尔 效 分 子 拓扑 指数 : 
»(D-cA)-—[15 10 12 16 15] 





MTI-—15--104-124-163-15— 68 


苏 尔 效 对 42 种 不 同 的 烷烃 进行 了 分 子 拓扑 指数 的 计算 ， 所 得 结果 列 于 表 9-13。 在 表 
9-13 中 的 第 17 号 和 第 18 号、 第 19 号 和 第 20 号、 第 24 号 和 第 25 号 、 第 27 号 和 第 28 号 、 
第 29 号 和 第 31 号 、 第 31 号 和 第 32 号、 第 21 号 和 33 号 、 第 41 号 和 第 42 号 这 些 分 子 对 都 
是 别 的 分 子 描述 指数 得 到 同一 指标 而 难 区 分 的 分 子 对 。 苏 尔 兹 提出 的 分 子 拓扑 指数 虽然 在 分 
子 结构 描述 的 退化 性 有 所 进步 ， 但 是 ， 对 于 此 分 子 拓扑 指数 与 沸点 的 相关 性 却 不 如 Randic 
分 支 指数 。 为 此 ， 苏 尔 效 提出 使 用 DHA) 和 矩阵 的 行列 式 值 和 第 一 特征 值 等 数量 指 
标 [3436 来 描述 分 子 特性 ， 以 改善 它们 与 分 子 化 学 性 质 的 相关 性 。 在 此 将 进一步 介绍 这 些 
内 容 。 

仍 以 2- 甲 基 丁 烷 为 例 来 说 明 。 对 于 2- 甲 基 丁 烧 的 距离 矩阵 D 和 (DADO 矩阵， 它们 
的 行列 式 值 分 别 为 32 和 176; 它们 的 特征 值 分 别 为 : A1 7. 45929, A2 — —3. 86269, A3 = 
—2.0000, àÀ4=— 1. 08462, As =— 0.51198 (D 和 矩阵)，) 一 8.85345，)， — — 3. 38547, 
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à3=— 2.0000, à4=— 2.0000, às =—1.46798[D +A) 矩阵 ]。 在 此 没有 提 到 拓扑 邻接 矩 
阵 A， 这 是 因为 Trinajstic 已 对 此 进行 过 研究 ， 所 得 结果 说 明 拓扑 邻接 矩阵 4 的 特征 值 是 一 
个 退化 性 很 高 的 指标 ， 很 多 不 同化 合 物 的 拓扑 邻接 矩阵 的 特征 值 相同 [537 。 


部 分 C, Cu 烷烃 的 沸点 和 分 子 拓扑 指数 



































































































































































































































































































































编号 kay 沸点 /C ATM lag kay oe 
1 甲烷 一 164 0 | 22 | 2,2.3-— H3E T fx 80. 88 156 
2 乙 烷 —88.6 4 23 | 辛 烷 125.7 306 
3 | 丙烷 —42 16 | 24 | 3- 甲 基 庚 烷 19 276 
4 正 丁 烷 —0. 50 38 25 | 4-H JE Bé bt 117.7 272 
5 2- 甲 基 丙 烷 —11. 73 36 26 | 2,5- 二 甲 基 已 烷 09. 1 270 
6 正成 烷 36. 07 74 27 | 2,2- 二 甲 基 已 烷 106.9 260 
7 | 2- 甲 基 丁 烷 27. 85 68 | 28 | 2,4- 二 甲 基 已 烷 09.5 258 
8 2,2- 二 甲 基 丙 烷 9. 50 64 29 | 3,4 基 已 烷 117.7 246 
9 正己 烷 68. 74 28 30 | 3,3- 二 甲 基 已 烷 12 244 
0 2- 成 烷 60. 27 18 31 | 3- 乙 基 -2- 甲 基 成 烷 15. 7 242 
11 3- 甲 基 戊 烷 63. 28 14 32 | 3- 乙 基 -3- 甲 基 戊 烷 118. 3 232 
2 2,3-2 3E T c 57. 99 08 33 | 2,2,3,3- 四 甲 基 丁 人 烷 06. 3 214 
13 2,2- 二 甲 基 丁 烷 49. 74 106 34 | cR 150. 8 438 
4 | ER 98.42 | 204 [| 35 | Xx 74.1 604 
15 | 2- C di 90. 05 90 |36 | 十 一 烧 198. 8 808 
6 | 3 C i 91. 85 82 |37 | 十 二 烷 216.3 054 
17 2,4- 二 甲 基 戊 烷 80. 50 76 38 | 十 三 烷 235. 4 1346 
8 3- 乙 基 戊 烷 93. 48 74 39 | FW 253. 7 688 
19 2,2- 二 甲 基 戊 烷 79. 20 70 40 | FEH 270. 6 2084 
20 2,3- 二 甲 基 戊 烷 89. 78 68 41 | 2,6- 二 甲 基 -5- 乙 基 -3- 异 丙 基 辛 烷 366 
21 3,3- 二 甲 基 戊 烷 86.03 | 162 42 | 2,3- 二 甲 基 -6- 乙 基 -5- 异 丙 基 辛 烷 1358 
表 9-14 列 出 了 对 前 述 42 种 不 同 的 烷烃 的 距离 矩阵 D 和 (CD 二 4) 和 矩阵 的 行列 式 值 和 它们 


的 相应 第 一 特征 值 及 用 它们 分 别 计算 所 得 的 沸点 值 。 为 列表 方便 在 此 略 去 了 这 些 化 合 物 的 名 
称 ， 只 保留 了 它们 的 编号 。 由 (CD 二 4A) 和 矩阵 的 行列 式 绝 对 值 的 Log 值 的 平方 根 对 相应 沸点 值 
进行 回归 计算 的 相关 系数 为 0.994; 而 由 距离 矩阵 D 的 第 一 特征 值 之 log 值 对 相应 沸点 值 进 
行 回 归 计 算 的 相关 系数 为 0.969; 由 (CD+A4) 和 抢 阵 的 第 一 特征 值 之 log 值 对 相应 沸点 值 进 行 回 
归 计 算 的 相关 系数 为 0.987， 说 明 采 用 这 些 数值 来 计算 可 提高 苏 尔 效 分 子 拓扑 指数 与 相应 化 
学 性 质 的 相关 性 。 

最 近 ，Klavzar 和 Gutman 对 苏 尔 兹 分 子 拓扑 指数 与 Wiener 指数 的 关系 进行 了 研究 [38] ， 
他 们 证 明了 苏 尔 兹 的 分 子 拓扑 指数 与 Wiener 指数 存在 如 下 关系 : 


aW < MTI « 8W 


具体 来 说 ， 可 由 以 下 两 个 表达 式 具 体 给 出 : 
(1) 如 果 卫 为 一 连接 图 ， 则 


20 a WO) MTIGD& 2vg4 WCG) 
式 中 ， U min 和 umax 分 别 表示 最 小 和 最 大 的 点 价 数 。 
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(2) 如 果 分 子 结构 隐 氧 图 卫 为 一 多 环 芳烃 体系 ， 则 有 


式 中 , A-—6-46/415X25 =6. 9295, 


4W Q0 «MTIGD «x AWT) 


以 上 两 个 关系 表明 ， 苏 尔 兹 分 子 拓扑 指数 与 Wiener 指数 之 间 存 在 一 定 的 线性 相关 关系 。 


«lin. 





人 进行 过 系统 的 研究 [39] 。 

巴 纳 班 曾 在 一 篇 评论 文章 中 指出 ， 用 实数 来 表达 顶点 不 变数 (vertex invariants) 的 确 
可 看 成 是 第 三 代 的 分 子 拓扑 指数 。 据 他 的 评论 称 !”5] ， 第 一 代 分 子 拓扑 指数 是 以 对 局 部 顶点 
不 变数 (local vertex invariants, LOVT's) 的 简单 操作 而 得 的 整数 ;第 二 代 分 子 拓扑 指数 
是 对 第 一 代 分 子 拓扑 指数 进一步 进行 复杂 操作 而 得 到 的 实数 ， 第 三 代 分 子 拓扑 指数 则 应 是 对 
第 二 代 分 子 拓扑 指数 进一步 操作 而 得 到 的 实数 。 关 于 此 三 类 分 子 拓扑 指数 的 具体 方法 及 其 特 





性 已 列 于 表 9-15 


中 。 


部 分 C,~ Cu 烷烃 的 沸点 和 分 子 拓扑 指数 








有 实 上 ， 对 于 烷烃 来 说 ， 在 苏 尔 兹 分 子 拓扑 指数 与 Wiener 指数 之 间 的 线性 相关 关系 已 经 有 






































编号 | 沸点 /C D] DUUM oia - PA 
的 沸点 值 /C ID| 1D 二 AI| 算 的 沸点 值 /C 
1 —161 0 0 0 0 
2 — 88. 6 = —4 —108. 8 il 2 —119.53 
3 一 42 4 6 一 47. 4 7321 4 —48. 6 
4 —0. 50 =I 一 60 = 5.1623 6.53113 1.4 
5 —ILy3 —12 —48 —9.4 4. 6458 6 =d 
6 36. 07 32 224 35.8 8. 2882 9. 72970 42.0 
7 27. 85 32 176 29.2 7.4593 8. 85345 32.4 
8 9. 50 32 128 20.2 6. 6056 8 22.1 
9 68. 74 — 80 —817 68.9 12.109 13. 6116 76.3 
0 60. 27 — 80 — 656 63. 5 1. 059 2. 5154 67. 7 
1i 63. 28 — 80 — 644 63.1 10.742 12. 17189 64. 9 
2 57. 99 — 80 — 512 51.9 0 1. 4031 58.2 
13 49. 74 — 80 —464 54.8 9. 6702 11. 0769 55.3 
4 98. 42 92 2840 97.9 6. 625 8.1783 105.8 
15 90. 05 192 2372 93.8 15. 405 16. 9205 98. 5 
6 93. 5 92 2352 93. 6 4. 297 5. 7492 91. 2 
7 92 92 2348 93. 6 4. 864 6. 3497 95.0 
18 80.5 92 1920 88.4 14.176 15. 6472 90.5 
9 79. 20 92 1728 86.6 3. 635 5. 0970 86.9 
20 89. 78 192 1872 88.4 13. 634 15.0751 86. 7 
21 86. 03 92 1680 86.0 3. 070 4. 4942 82. 7 
22 80. 88 192 1344 80.8 12. 394 13. 8023 TET 
23 125. 7 —448 — 9486 123.8 21.836 23. 4316 131. 7 
24 119 —448 —8127 120.6 19. 763 21. 3026 122.0 
25 117:7 — 448 —8160 120. 7 9. 542 21.0738 120.9 
26 109. 1 — 448 — 6864 117. 0 19. 112 20. 6428 118.8 
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编号 | ”沸点 /人 C D ID 上 Ai pU ds DA 
A in| IDFA] 沸点 
06. 9 一 448 — 6220 5.0 8. 413 9. 9327 15,2 
28 109.5 —448 — 6816 116. 9 18. 396 19. 8985 115 
29 IZ — 448 — 6700 6.5 7. 676 9. 1471 11.1 
30 112 — 448 — 6124 4. 6 7. 443 18. 9193 109.9 
3l 15,7 — 448 —6832 6.9 7. 419 8.8774 09.6 
32 118.3 —448 — 6076 4.5 6. 671 18. 1096 105.4 
33 106.3 —448 — 3520 02.6 14. 937 16. 3459 95.0 
34 50.8 1024 31007 Tar 27. 742 29.3729 54. 7 
35 174.1 — 2304 — 100095 70.0 34. 343 36.0037 175.5 
36 96.8 5120 320048 91.1 41. 638 43. 3249 94.4 
37 216.3 — 11264 — 1014203 211.1 49. 629 51. 3375 211.7 
38 235.4 24576 3188230 230.0 58. 314 60. 0420 227.7 
39 253.7 — 53248 — 9954933 248.2 67. 694 69. 4390 242.5 
40 270.6 114688 30910288 265.6 77.769 79.5288 256.3 
41 114688 17734496 257.1 5]. 924 53. 5129 215.9 
42 114687 16622076 256.1 52. 136 53. 7266 216.3 
基于 局 部 顶点 不 变数 (LOVT's) 的 三 代 分 子 拓扑 指数 
分 子 折 扑 指数 LOVI'S R 作 分 子 折 扑 指数 形式 退化 性 

"m T 简单 标记 m 高 

第 二 代 整数 或 有 理 数 结构 性 计算 实数 TT 

第 三 代 实数 两 形式 名 有 实数 低 











按照 他 的 分 类 方法 ， 像 Wiener 指数 就 应 为 第 一 代 分 子 拓扑 指数 ， 第 一 代 分 子 拓扑 指数 
的 例子 还 有 : 
(D Zagreb 的 基 团 拓扑 指数 ， 记 为 MU. 


M — Sài 


© Gordon-Scantlebury 指数 ， 记 为 NUH, 


N 一 >70;(0; — 1/2 


© 平方 指数 , 记 为 QU? : 





Q=[ 2 0? —208; - 2]/2 





(9-10) 


(9-11) 


(9-12) 


TEXXC9-100 — 3X (9-12? F, 8; 均 表 示 分 子 图 的 点 价 。 实 际 上 ， 式 (9-10) — X (9-12) 存在 


着 以 下 的 线性 关系 : 








Q—N-—n 


上 2 一 3 


M=2(N +n—1) 
式 中 ,nn 为 分 子 隐 和 氧 图 中 的 顶点 数 。 一 般 说 来 ， 第 一 代 分 子 拓扑 指数 都 具有 较 高 的 退 





2n d (M /2) 
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化 性 。 


第 二 代 分 子 拓 扑 指数 的 典型 代表 是 Randic 分 支 指数 和 后 由 Kier 拓 
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数 ， 另 外 一 个 例子 是 分 子 图 的 所 有 项 点 的 均 方 距离 指标 ， 记 为 DOL, 











DO — (Ma; /[ni —1)] 
ij 


RP, di 表示 顶点 之 间 的 距离 ; n 表示 分 子 图 中 顶点 的 数目 。 
它们 的 局 部 顶点 不 变数 (CLOVT's) 是 由 实 


第 三 代 分 子 拓扑 指数 可 以 是 这 检 
数 表 出 的 ， 这 样 的 例子 可 以 是 
由 Balaban 等 提出 的 这 样 的 第 三 代 分 子 拓扑 指数 525] 


归 顶 点 点 价 (RVD). 


距离 顶点 对 该 项 点 的 影响 ， 所 以 ， 











一 些 指标 ， 
邻接 矩阵 或 距离 矩阵 的 特征 值 、 行 列 式 值 等 。 在 此 仅 介 绍 一 





展 的 分 子 连 接 性 指 


(9-13) 


种 


， 他 们 称 之 为 回归 距离 和 (RDS) 及 回 


五 、 回 归 距 离 和 (RDS) 及 回归 顶点 点 价 (RVD) 
因 顶 点 点 价 反 映 了 该 顶点 与 其 相连 顶点 的 关系 ; 而 顶点 之 间 i a 






































分 子 拓扑 图 中 的 顶点 点 价 和 顶点 之 间 的 距离 和 已 在 





= 





















































和 第 二 代 分 子 拓 扑 指 数 中 得 到 了 相当 广泛 的 应 用 。 巴 纳 班 等 在 这 里 则 通过 回归 顶点 ee 
强 顶 点 点 价 的 作用 ， 使 它 能 将 一 些 更 远 的 顶点 的 贡献 也 包括 进来 ， 当 然 ， 随 着 距离 的 增 大 ， 
COEUR Uu ees 而 回归 距离 和 则 是 起 到 相应 的 增强 简单 顶点 和 的 作用 ， 而 且 ， 经 此 增 
强 后 ， 这 些 指 标 都 成 了 实数 ， 这 样 就 可 以 达到 降低 拓扑 指标 退化 性 的 目的 。 下 面 将 通过 两 个 
简单 的 例子 来 加 以 说 明 。 

图 9-6 和 图 9-7 分 别 给 出 了 几 个 具体 构成 回归 顶点 点 价 和 回归 距离 和 指标 的 例子 。 
2 i 3 2 | i i 
顶点 编号 ININ py pq 
1 3 5 2 4 
5 4 1 4 5 
入 V 
顶点 点 价 3h s INIR ?»3. »* 
2 2 l 2 1 1 
j i 1 2 p 2 go obi Sud "9 a o4 1 2 3 
^m 2 6 A4|1 2 2 2 1 1 3 3 1 1 4 3 
2 3 Ww pec uw 3 3 0| 3 4 1 01|4 4 0 
和 矩阵 3 3 7 2 2 4 2 0 0 | 2 4 2 0 1 4 3 
4 2. 5 5|2 3 2 1| 0|1 2 3 2 1 4 3 
5 2 5 5 I X o»* 3 1 1 3 3 1 1 4 3 
2.8981 1.5017 1.6111 1.6111 
REN 2.4647 2.4647 
RVD} 3.5370| 1.3924 4.50 
2.8102 1.3633 2.5741 1.3633 T Rm 1.6111 1.6111 
jd AC 221 2421 d s 2s 
vix 3.41 1.232 DL 
T 1.2221 242 12221 re 143 143 
PES 回归 顶点 点 价 计算 示意 图 
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2 4 5 
260—343 SININ 
顶点 编号 站 
ANAN 2: 









































1 3 
^ 
5 4 4 5 
6 
7 7 
SZ S a í 
距离 和 
6 6 7 7 
1 2 3|1 2 3 4 5|1 2 3 4 1 2 3 
1 6 10 1 10 7 6 7 10|8 5 14 9|7 4 2 
2 5 17 67 16 7 0 0|5 2 9 0|4 28 0 
和 矩阵 3 5 17 6.6 14 20 0 06 14 1 0|7 4 2 
4 6 11 187 16 7 10 0/|9 6 5 16|7 4 2 
5 6 11 18.10 7 6 7 10|8 6 14 9|7 4 2 
7.6944 92741 8.2778 82778 
PNE 9.4155 9.4155 
RDSÖ l 8.083 10.1852 7.5 
fi 
12.0066 8.4907 12.0066 82778 82778 
7.7824 92741 8.3426 
742 8.649 8.16 8.16 
8.68 — 8.68 
6.76 729| 9.666 es 
RDS/? /AN : 
了 
10.768 7.6 10.768 
721 8.649 756 8.16 8.16 


回归 距离 和 计算 示意 图 


从 图 9-6 和 图 9-7 可 以 看 出 ， 首 先 为 四 个 具有 五 个 碳 原子 的 隐 氧 图 进行 了 编号 ， 继 而 将 
这 些 碳 原子 的 点 价 或 各 顶点 到 该 点 的 距离 和 标 出 。 然 后 ， 构 成 了 一 个 和 矩阵， 在 该 矩阵 的 第 一 
列 中 ， 简 单 地 计 下 该 顶点 相应 的 点 价 和 距离 ， 而 在 该 矩阵 的 第 二 列 中 ， 则 将 与 其 最 邻近 的 项 
点 所 标 出 的 点 价 或 距离 进行 加 合 ， 即 将 只 与 该 项 点 直接 相连 (距离 等 于 1) 的 顶点 的 相应 数 






































加 合 ， 对 于 该 矩阵 的 第 列 ， 则 将 与 该 顶点 以 (i 一 1) 个 边 相 连 [距离 等 于 (i 一 1) ] 的 顶 

ASIE E, 两 个 顶点 之 间 的 最 大 距离 称 为 该 分 子 图 的 直径 ， 它 也 等 于 该 矩阵 的 列 数 。 
得 到 这 两 个 矩阵 后 ， 相 应 的 RVD; 和 RDS; 则 可 通过 以 下 两 式 来 进行 计算 : 

LOVI 2 Xi y; (9-14) 

LOVI® 一 之 101 iy (9-15) 


AP, yg RIRIA ERAR i 行 第 7 列 的 元 素 。 由 式 (9-14) 和 式 (9-15) 计算 出 来 
的 局 部 顶点 不 变数 在 图 9-6 和 图 9-7 的 最 后 两 行 给 出 。 这 样 所 得 到 的 分 子 拓扑 指数 将 具有 很 
小 的 退化 性 。 用 这 些 指标 计算 了 35 个 烷烃 (n—5-—8) 的 沸点 ， 所 得 的 相关 系数 为 0. 985， 
可 见 它们 也 具有 很 好 的 化 学 特性 表达 功能 


六 、 分 子 形状 及 灵活 性 指数 (Kappa 指数 ) 


分 子 形状 和 空间 构象 对 其 物化 性 质 和 生物 活性 具有 重要 影响 ， 但 对 这 类 结构 特征 的 定量 
描述 一 直 是 个 难点 问题 。 化 学 家 和 药物 学 家 很 早 就 认识 到 了 对 分 子 形状 和 空间 构象 进行 合适 
的 定量 描述 的 确 应 具有 重要 意义 ， 并 在 近年 内 提出 了 一 些 描述 的 方法 。 

在 化 学 反应 中 ， 有 两 个 大 的 方面 被 一 致 认为 会 明显 受到 空间 效应 的 影响 。 第 一 个 方面 是 
原子 或 基 团 对 分 子 的 临近 部 分 的 反应 影响 ， 取 代 基 效应 的 影响 一 直 被 广泛 研究 。 空 间 效 应 一 
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直 被 认为 对 某 种 试剂 进攻 反应 活性 中 心 起 阻碍 作用 。 第 二 个 方面 是 当 分 子 间 相互 作用 的 时 
修 ， 二 者 必须 在 结构 上 有 一 定 的 互补 关系 才能 彼此 反应 。 

1. 原子 与 路 径 数 

同 分 异 构 体 的 每 个 分 子 的 形状 是 不 相同 的 ， 故 它们 的 化 学 性 质 亦 应 有 所 不 同 。 首 先 认为 
分 子 的 形状 是 一 个 关于 分 子 中 的 原子 个 数 及 相互 关系 的 函数 。 对 于 一 个 分 子 图 ， 可 以 计算 其 
原子 数目 和 各 阶 路 径 数 。 现 以 一 个 具体 例子 加 以 说 明 。 

一 系列 同 分 异 构 体 的 结构 各 不 相同 ， 因 此 原子 数目 并 不 能 提供 有 用 的 结构 信息 。 可 以 利 
用 各 阶 路 径 数 来 构建 一 个 指数 表达 分 子 的 结构 信息 。 从 表 9-16 中 可 以 清楚 地 看 出 ， 只 要 用 
到 三 键 长 度 路 径 数 ， 就 可 将 这 些 己 烷 同 分 异 构 体 区 分 开 来 。 


己 烷 同 分 异 构 体 的 原子 及 路 径 数列 表 



























































2 f A 1p ?P "ur 
mM 6 5 4 3 
pw 6 5 5 3 
d d 6 5 5 4 
Av 6 5 6 4 
K F 6 5 7 3 
E 6 6 6 6 














注 : A 一 原子 数 ;1P 一 一 键 长 度 路 径 数 ;?*P 一 二 键 长 度 路 径 数 ;s*P 一 三 键 长 度 路 径 数 。 


2. Kappa 指数 的 计算 模型 
(1) 一 阶 形状 属性 


lk=2!Pina! Poia/ (Pr) =A ASI (PY) 


式 中 , EP ux 表示 在 原子 数 为 A 的 所 有 同 分 异 构 体 中 , 一 阶 路 径 数 的 最 大 值 ; IP gi MES 
示 最 小 值 。 
(2) 二 阶 形状 属性 


2k =2? P ma "Pau CPi)?=(A—1) (A aC P 
(3) 三 阶 形状 属性 

3k =4 P m SPuin/ (CP 

更 一 般 地 ， 有 ， 

5k—(A—D/CA—3) / GP)? A 是 奇数 




















3k 二 (A 一 3)(A 一 2)?/GP;)? A 是 偶数 
下 面 仍 以 一 个 具体 例子 来 进行 Kappa 指数 的 实际 计算 。 在 表 9-17 中 列 出 了 这 样 的 例子 。 
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不 同 分 子 的 "k (m=1, 2, 3) 值 及 其 相对 应 的 结构 



































A=5 €» Dx] [> C Paca 
ik 0. 800 1. 633 2.222 3. 200 5. 000 
A=6 »« b a pu -一 -一 一 
T 0. 800 633 3. 200 5. 000 
4=10 MX PN | vSOSCS XX 
3 1. 750 .991 4. 480 9. 143 
来 看 几 个 计算 实例 : 


1k = A(A 一 1)?/QP;)? 二 5X (5 一 1)?/6? 二 5X 如 /36 二 2.222 Gi 9-17 中 第 一 行 第 三 列 ); 
2k=(A—1)(A—2)2/CP;)=(6—1)X(6—2)2/C(2P,;)?=5X42/72=5X42/49=1. 633 


CR 9-17 中 第 三 行 第 二 列 ) ; 








35 —(A—3)€A —2)?/G P) = (103) X (10—250?/C P;)? —7x 82/7? —7x64/49— 
9.143 G& 9-17 中 第 五 行 第 四 列 ) ; 


在 Kappa 指数 的 实际 计算 中 ， 还 得 进行 元 素 的 差异 区 分 ， 不 同 的 元 素 对 形状 的 影响 不 
同 。 例 如 ，@ 利 用 前 面 的 Kappa 指数 无 法 分 辨 成 烧 和 二 乙醚 ， 因 为 在 化 学 图 中 ,二 者 的 
Kappa 指数 是 完全 一 样 的 。 但 是 由 于 C 原子 和 O 原子 的 差异 ， 二 者 具有 不 同 的 形状 。 因 此 ， 
需要 考虑 分 子 中 的 原子 性 质 对 分 子 整体 形状 的 影响 。 回 原子 数 修正 方法 : ax 利用 原子 的 共 
价 半径 ， 以 sps 杂 化 的 C 原子 为 标准 进行 修正 后 , ax = (rxy/ress) 一 1， 再 以 同样 的 方法 计 
算 Kappa 值 。 有 关 Kappa 指数 的 详细 计算 ， 读 者 可 以 参考 文献 [44,45]。 


七 、 电 子 拓扑 状态 一 一 QSAR 及 数据 库 分 析 中 的 结构 模拟 参数 


电子 拓扑 状态 指数 〈(E-state)L5 是 从 原子 水 平 对 分 子 结构 进行 描述 和 编码 。 电 子 拓扑 状 
态 参 数 的 构建 是 认为 分 子 中 的 每 个 原子 都 具有 一 个 因 其 他 原子 的 扰动 (取决 于 原子 的 自身 性 
质 以 及 彼此 间 的 距离 》 而 形成 的 特有 的 内 在 状态 ,这 种 状态 包含 了 其 电 负 性 与 拓扑 环境 两 方 
面 的 信息 。 因 此 ， 原 子 的 E-state 指数 其 实 反 映 了 其 所 在 位 置 上 的 电子 可 及 性 能 力 。E-state 
指数 既 可 以 对 每 个 氧 原子 单独 计算 ， 也 可 以 针对 整个 分 子 进行 计算 。 

传统 的 QSAR 模型 是 将 分 子 的 物理 化 学 性 质 与 其 生物 活性 相关 联 ， 这 些 模 型 反映 了 分 
子 结构 的 变化 对 其 性 质 产 生 的 影响 ， 在 分 子 设计 中 具有 重要 意义 。 经 过 几 十 年 的 探索 ， 一 种 
分 子 结构 信息 表征 方式 也 在 分 子 设 计 中 发 挥 了 重要 作用 ， 那 就 是 基于 原子 或 基 团 水 平 对 分 子 
结构 进行 定量 描述 。 人 们 越 来 越 清 楚 地 发 现 药物 受 体 、 酶 基底 以 及 键 的 相互 作用 往往 受到 分 
子 中 一 些 特别 的 原子 或 基 团 很 大 的 影响 。 因 此 ， 对 于 分 子 结构 的 识别 至 关 重 要 。 不 管 是 通过 
物理 性 质 参数 还 是 基于 各 种 结构 描述 符 构建 的 模型 都 会 存在 信息 丢失 。 有 必要 对 分 子 子 结构 
进行 编码 和 定量 描述 以 便 从 不 同 的 角度 更 好 地 理解 分 子 结构 变化 对 其 性 质 产 生 的 影响 ， 而 
E-state 指数 正 是 反映 这 方面 的 要 求 而 提出 的 一 种 参数 。 

《一 ) 分 子 原 子 内 在 结构 的 表达 

1. 信息 场 中 原子 的 表征 

将 分 子 中 的 一 个 原子 视 为 存在 于 一 个 信息 场 中 ,分 子 中 的 其 他 原子 均 能 对 此 信息 场 产生 
不 同 的 影响 ， 因 此 ， 对 于 某 个 具体 分 子 中 的 某 个 具体 原子 均 有 一 个 对 应 的 特征 信息 场 。 例 
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如 ， 丙 烷 和 乙酸 中 的 甲 基 就 具有 不 同 的 信息 场 ， 尽 管 二 者 都 是 甲 基 。 因 为 对 甲 基 的 定量 描述 
不 仅 包 括 其 自身 的 内 在 性 质 ， 同 时 还 与 分 子 中 的 其 他 原子 或 基 团 对 它 的 影响 有 关 ， 这 种 影响 
主要 通过 分 子 中 原子 之 间 的 键 连接 来 传播 ， 所 以 这 种 关系 可 以 通过 化 学 图 中 的 连接 性 来 开展 
研究 。 

2. 原子 的 内 在 性 质 

为 了 说 明 原 子 的 内 在 性 质 这 一 基本 概念 ， 继 续 以 甲 基 为 例 ， 将 任何 分 子 中 的 甲 基 所 具有 
的 一 些 基 本 属性 称 为 它 的 内 在 性 质 ， 并 通过 一 个 简单 的 符号 来 表示 所 有 的 甲 基 。 内 在 性 质 具 
有 普遍 性 和 本 质 性 。 一 般 来 讲 ， 内 在 性 质 的 描述 包括 三 个 方面 : 四 所 含有 的 元 素 ， 如 甲 基 含 
有 氢 和 碳 。@ 电 子 分 布 ， 用 来 描述 原子 或 基 团 的 杂 化 或 共 价 状态 ， 主 要 通过 单 键 、 共 斩 结 构 
和 孤 对 电子 等 来 反映。 人 @ 原 子 或 基 团 的 局 部 拓扑 环境 。 

3. 原子 内 在 性 质 参 数 构 建 一 一 6 值 

化 学 家 经 常用 价 态 或 者 杂 化 概念 来 描述 原子 在 分 子 中 的 存在 形式 ， 这 种 描述 同时 提供 了 
挑战 与 机 遇 。 原 子 描述 法 本 质 是 对 杂 化 状态 下 不 同 轨道 的 电子 层 结 构 和 价 电 子 分 布 的 描述 。 
现 以 乙酸 乙 酯 为 例 来 加 以 说 明 ， 见 图 9-8. 






















































































" o 2 
T o6 55 
H,C—C—0-—CH;—CH, | 6°=2 
CG—C—0—C— 
5=1 0-3 62 ôl 
6=1 6=4 -6 ð= 


ERED 乙酸 乙 酯 的 分 子 结构 式 (a) 及 其 5 值 表示 示意 图 (b) 


对 于 原子 的 价 电子 的 描述 一 般 采 用 两 种 方式 : 一 是 86， 即 与 该 原子 相 邻 的 非 氧 原子 数 
目 ， 它 反映 的 是 o 键 的 骨架 结构 特征 ; 二 是 6" ， 它 被 定义 为 该 原子 的 价 电子 数目 减 去 与 其 
相连 的 氧 原子 的 数目 。9 和 65 是 用 来 构建 原子 内 在 性 质 参 数 的 两 个 重要 指标 。 

(OD 6 值 的 计算 方法 ”在 对 结构 描述 的 研究 中 发 现 6 和 8 提供 了 非常 丰富 的 原子 信息 。 
简单 的 6 的 定义 为 : 6==o 一 h; 其 中 o 是 6 轨道 上 的 电子 数目 ,，h 是 与 之 相连 的 氧 原子 数目 。 
Wut. fep dy o 提供 的 信息 包括 : 中 相 邻 的 非 所 原子 数 ; 四 除 氧 原子 外 的 其 他 原子 上 的 o 电 
子 数 目 ， 四 与 原子 相连 的 键 的 数目 ， 由 原子 在 分 子 中 的 拓扑 环境 。 

6" 的 定义 为 : 0"— 2 一 一 5 十 x 十 2 一 六 ， 其 中 关 是 r 轨 道上 的 电子 数 ，7” 是 孤 对 电子 
数目 。 因 此 ,， 6" 提供 的 信息 包括 : 四 原子 的 价 电子 数目 ，@ 除 了 与 氨 连 接 的 原子 的 e 电子 、 
x 电子 和 nn 电子 数目 。 由 0 二 2 —h —o-E x dn —h 可 以 看 出 ,6 一 6 一 x 十 n 表示 的 是 原子 
的 x 电子 和 n 电子 数目 之 和 ， 由 此 提供 了 一 种 定量 描述 原子 参与 分 子 间 相互 作用 或 反应 的 能 
力 。 同 时 ,研究 发 现 原子 的 价 态 信 息 与 Mulliken-Jaffe 电 负 性 也 具有 很 高 的 相关 性 。 


碳 、 氮 、 氧 及 卤素 的 SÍ 





































































































原 T 杂 化 态 ó 6 
iod sp? 4 4 
EM sp 4 3 
=C— sp 4 2 
SN= sp’ i ? 
—N— s 5 2 
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续 表 

原 E 杂 化 态 ó* 6 
=N sp 5 

=0= s 6 2 
=0 sp 6 
—F sp T 
—CGl sp 7 
— Br sp: 
—I sp? 7 


























表 9-18 总 结 了 在 分 子 中 的 磺 、 氮 、 氧 及 商 素 原子 的 6 和 65* 值 。 再 由 6 一 6 二 x 十 n 可 以 


看 出 ， 两 者 之 差 表示 的 是 原子 的 























与 分 子 间 相互 作用 或 反应 的 能 力 [57 


电子 和 nm 


o 














电子 数目 之 和 ， 由 此 提供 了 一 种 定量 描述 原子 参 























此 外 ， 它 还 与 处 于 该 价 态 的 原子 的 Mulliken-Jaffe 电 
负 性 高 度 相 关 。 这 些 数值 以 及 Kiar-Hall 电 负 性 都 示 于 表 9-19 之 中 。 


ESBE Kiar-Hall 及 Mulliken-Jaffe FB fa fEf& X, = (0' -6)/N* 








原子 0 一 0 XkH Xuc/V 
F 6 1. 50 17. 36 
一 O 5 1.25 7.07 
0 一 4 1.00 5.25 
=N 4 1.00 5.68 
=N— 3 0.75 2.87 
DN— 2 0.50 1.54 
=C— 2 0.50 0.39 
ë< 1 0.25 8.79 
DO 0 0.00 7.98 
一 S 5 0.55 10.88 
一 8 一 4 0.44 10.14 
=c 6 0.67 11.84 




















i: N 为 主 量子 数 ;，Xxa 为 Kiar-Hall 电 负 性 ; Xm 为 Mulliken-Jaffe 电 负 性 。 








(2) 内 在 状态 参数 的 计算 ”用 一 个 简单 的 指数 来 近似 反映 价 态 电 负 性 对 于 结构 描述 非常 
6 来 进行 定义 ,与 之 同样 重要 的 原子 在 分 子 中 的 拓扑 环 


重要 。 内 在 状态 








参数 了 就 是 通过 6* 
境 。 据 此 ， 内 在 状态 参数 提供 了 两 方面 的 信息 : 
包 邻 接 原子 或 基 团 之 间 的 相互 影响 。 注 意 到 原子 邻接 性 与 原子 
一 种 方法 就 是 利 月 












































中 原子 或 基 团 参与 分 子 间 相 互 作用 的 能 

















电 负 性 同时 表征 其 内 在 状态 ， 


日 邻 接 性 的 倒数 ， 即 1/6， 作 为 一 个 可 及 性 指数 。 可 及 性 指数 越 大 ， 则 该 原 





子 或 基 团 参与 反应 的 可 及 性 能 力 就 越 强 。 由 此 定义 内 在 状态 参数 :T= 二 (6" 一 6)/6 ， 男 一 种 表 
达 方 式 (x 十 n)/(o 一 h) 更 能 反映 几 种 电子 之 间 的 关系 。 然 而 ， 对 于 sp IERE. WK 
HI=0—8)/ 来 计算 其 内 在 状态 参数 时 ， 其 值 将 为 零 。 实 际 上 ， 如 果 对 其 进行 适当 修改 ， 
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即 采 用 I 二 (6* 十 1)/6 来 替代 ， 则 可 发 现 此 内 在 状态 参数 具有 很 有趣 的 性 质 ， 其 结果 示 于 表 9-20 
和 图 9-9 之 中 。 


eani k, 
内 在 状态 数 : 
1)-7.00 1(4)-3.50 
1(2)=1.67 5)-1.50 
1(3)-2.00 1(6)-2.00 


ER 乙酸 乙 酯 的 分 子 结构 式 及 其 每 个 原子 基 团 的 内 在 状态 数值 


第 二 行 元 素 氨 化物 的 内 在 状态 数 





























元 素 氢化 物 基 团 I=[(6'+1)/6] 元 素 氢 化 物 基 团 I=[(6'+1)/6] 
Eod 1. 250 一 0 一 3. 500 
CH- 一 1. 333 —CH, —NH, 4. 000 
一 CH 一 1. 500 一 NH 5. 000 
>C 一 1. 667 —N, 一 OH 6. 000 
CH;, 一 CH 一 ，ZN 2. 000 一 0 7. 000 
—C—,  NH— 2. 500 —F 8. 000 
—CH, 一 N 一 3. 000 
4. 其 他 原子 对 某 原子 内 在 状态 的 影 听 信息 场 
在 前 述 的 原子 或 基 团 的 内 在 状态 参数 的 定义 中 ， 没 有 反映 出 原子 在 分 子 中 的 位 置信 息 和 原子 





与 原子 之 间 相 互 影 响 关 系 。 故 在 定义 电子 折 扑 状态 指数 (Estao 前 ， 还 有 必要 对 其 他 原子 对 某 
原子 内 在 状态 的 影响 言 息 场 效 应 进行 必要 的 讨论 。 信 息 场 效应 可 由 式 〈9-16) 给 出 : 


Alg = (IH; —I/rg (9-16) 

式 中 , DL. Dj gd Xj 原子 的 内 在 状态 数值 ，AT; 为 信息 场 微 扰 项 ; rug i 5g 原子 之 间 的 

距离 ， 或 相隔 的 键 数 ，m 为 可 变 参 数 ， 一 般 取 2。 有 了 这 信息 场 微 扰 项 ， 可 以 定义 电子 拓扑 状态 
指数 (Estate) 如 下 ， 即 














S: = L + DAT; (9-17) 
j 








式 中 ，S; 就 是 分 子 中 元 素 i 的 电子 拓扑 状态 指数 。 
C) 电子 拓扑 状态 指数 的 计算 实例 
图 9-10 示 出 了 乙酸 乙 酯 中 甲 基 的 电子 拓扑 状态 指数 (Estate) 计算 的 实例 。 首先， 


"at 即 计算 甲 基 与 亚 甲 基 的 信息 场 效 应 的 相互 作用 ， 即 (2.00 —1. 500/22. 290.13. 28 


























后 逐步 外 推 ， 直 到 计算 ,人 “人 人，，， 即 计算 甲 基 与 最 远 甲 基 的 信息 场 效应 的 相互 作用 ， 即 


(2. 00 一 2. 00)/22 ， 为 0.00。 对 所 有 的 信息 场 效应 的 相互 作用 AT;; 求 和 和 ， 得 BAT;; 二 一 0. 22， 则 最 
后 可 得 乙酸 乙 酯 中 甲 基 的 电子 拓扑 状态 指数 为 


Scu, = 1. 78 
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Alc 
CH, i 
me S (2.00—1.50)/22 = 0.13 
vu uoc y (2.00-3.50)/3? = -0.17 
171.57 90971 ! 
2 9-2 QFL67 CH, C : 
ues e HC 0 (2.00-1.67)/4 = 0.02 
1 CH C53 4 
H4C7f 500.67 CH, ó-1 i 
20 Rs CH, C 2.00-7.00)/5? = -0.20 
pon 2 .00—7. S 
à'-6 HT Oo7 ( ) 
I-3.5 
CH, C (2.00-2.00)/5? = 0.00 
HC” 0  ^CH, 


ZAlcH, = -0.22 
Sctu=ICHISAICH=2.00-0.22=1.78 


乙酸 乙 酯 的 甲 基 电 子 拓扑 状态 指数 的 计算 实例 
实际 上 ， 上 述 计 算 过 程 可 对 乙酸 乙 酯 中 每 个 元 素 基 团 的 电子 拓扑 状态 指数 (E-state) 进行 计 


算 。 表 9-21 列 出 了 乙酸 乙 酯 中 每 个 元 素 基 团 的 信息 场 效 应 的 相互 作用 的 数值 及 其 求 和 所 得 ， 而 图 
9-11 则 列 出 了 乙酸 乙 酯 中 每 个 元 素 基 团 的 电子 拓扑 状态 指数 值 。 


乙酸 乙 酯 中 所 有 元 素 基 团 的 AT; SEE 























xj 
元 素 i 25 Aj 
1 2 3 4 S 6 
1 1,33 0. 56 0. 39 0. 34 0. 20 2. 82 
2 —1,;33 — 0. 08 —0. 46 0. 02 —0. 02 —].87 
3 —0. 56 0. 08 = 17 0. 03 0. 00 —0. 62 
4 —10. 39 0. 46 0. 17 0. 50 0. 17 0. 91 
5 —10. 34 — 0. 02 — O0. 03 —10. 50 一 小 13 —]. 02 
6 —0. 20 0. 02 0. 00 —0. 17 0. 13 —0. 22 
总 和 :0. 00 

















从 以 上 讨论 可 知 ， 上 述 定义 的 电子 拓扑 状态 指数 (Estat) 不 但 可 以 计算 隐 氧 分子 中 任 一 基 
团 的 电子 拓扑 状态 指数 ， 而 且 ， 通 过 信息 场 效 应 的 相互 作用 ， 分 子 中 每 个 不 同 元 素 基 团 的 电子 拓 
扑 状态 指数 也 可 全 部 给 出 (参见 图 9-11)， 以 获得 整个 分 子 的 电子 拓扑 状态 5 下。 所 以 ，E-state 
的 提出 得 到 了 广泛 的 重视 [59 ， 而 且 ， 它 们 还 在 三 维 QSAR 研究 中 得 到 了 广泛 的 应 用 [5559 。 








9.82 
O 


441 
1.78 
^ (AIO o 20" 1.38 


乙酸 乙 酯 中 每 个 元 素 基 团 
的 电子 拓扑 状态 指数 值 











E-state 是 一 个 基于 原子 型 的 分 子 描述 子 57 ， 在 电子 拓扑 状态 指数 中 ， 人 们 还 可 以 对 四 种 氢 
基 团 结合 的 特征 模式 进行 分 类 处 理 ， 即 所 谓 的 : ORF OR) WI ONSE; QESKA 
原子 数 ; 由 其 他 键 合 原子 的 识别 。 下 面 将 对 此 给 出 较为 详细 的 介绍 。 

COD ETF OR) 识别 ”原子 OR) 识别 可 以 直接 通过 原子 数 Z 来 给 出 ， 它 是 没 任何 歧 义 
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的 元 素 识别 符 。 详 细 情 况 可 参见 表 9-22. 

(2) 价 态 情况 ” 价 态 情况 一 般 是 可 以 通过 分 配 到 o HE. x 键 和 孤 对 电子 轨道 上 的 价 电子 数 及 
共振 态 和 芳香 态 来 表示 的 。 在 此 ， 分 子 连接 性 9* 和 8 值 用 于 价 电 状 态 的 设计 。 为 表示 一 个 特别 的 
价 电 状 态 , e 之 和 ， 即 9 十 9 列 于 表 9-22 之 中 。 此 外 ， 在 表 9-22 中 ， 还 特别 地 引入 了 一 个 只 
含 两 个 值 ， 即 0 或 1 的 变量 AR， 当 AR 为 1 时 ， 表 示 该 分 子 具 有 芳香 性 ， 而 当 AR 为 0 时 ， 则 表 
示 该 分 子 不 具有 芳香 性 。 

O 刍 合 的 氧 原 子 数 ”不同 的 键 合 的 氧 原子 数 这 一 情况 的 给 出 ， 很 有 利于 来 相关 化 合 物 的 反 







































































x N N T 、 
应 特性 ， 如 CH 一 =CH:, 一 CE、C —NHe, No N, oH, —0— 等 。 这些 情况 也 都 列 在 


了 表 9-22 中 。 

(4) 其 他 键 合 原 子 的 识别 ”一 般 说 来 ， 在 8 种 情况 中 ， 如 只 基于 化 学 经 验 ， 只 采用 原子 数 和 
价 键 状态 是 无 法 区 分 不 同 的 连接 基 团 的 ， 对 于 下 列 情况 ， 就 需要 进行 键 合 原子 的 具体 分 析 : 

CD 两 二 烯 与 乙 抉 碳 原子 的 连接 ; 

O 一 个 碳 原子 与 芳香 环 蔡 中 的 第 9 位 和 第 10 位 相连 ， 还 是 与 一 个 芳香 碳 相 连 而 只 作为 其 的 
一 个 取代 基 ; 

O 叔 胺 氮 、 硝 基 所 和 吡 哇 中 的 氮 氧 化 物 ; 

@ 在 二 硫化 物 中 的 硫 与 在 二 硫 键 连接 的 硫 。 

对 于 这 些 价 态 的 细微 区 别 ， 有 兴趣 的 读者 可 以 参阅 相关 文献 L[52,57]， 在 此 不 再 详 述 。 


原子 型 及 相关 原子 型 电子 拓扑 状态 指数 
































价 态 指数 
序号 元 素 基 团 基 团 符号 
zb 6 ô’ ô +ô: 0 一 01 AR* 
1 一 CHs 6 1 1 2 0 0 sCH; 
2 —CH» 6 2 1 3 1 0 ^ dCH; 
3 一 CH2: 一 6 2 2 4 0 0 ssCH» 
4 EUCH 6 3 1 4 2 0 tCH 
5 =CH— 6 3 2 5 1 0 dsCH 
6 一 CH 一 6 3 2 5 1 1 aaCH 
bS 
y CH— 6 3 3 6 0 0 sssCH 
rd 
8 == 6 2 6 2 0 ddC* 
9 =C 6 2 6 2 0 tsC* 
P4 
0 —C 6 4 3 7 1 0 dssC 
Ne 
| i 3 C 
1 CC 6 4 3 7 1 1 aasC 
| , 
2 E 6 4 3 T 1 1 aaaC 
Ne 
3 C 6 4 4 8 0 0 ssssC 
ZN 
4 —NHs[4 1] 7 2 1 3 1 0 SNH; 
5 —NH» 7 3 1 4 2 0 sNH; 
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续 表 
价 态 指数 
序号 元 素 基 团 基 团 符号 
z^ pr $4 +ô: 6*—6: AR* 
16 —NH; [+1] T 3 2 5 1 0 ssNH; 
17 —NH 7 4 1 5 3 0 dNH 
18 一 NH 一 7 4 2 6 2 0 ssNH 
19 —NH— 7 4 2 6 2 I aaNH 
20 —N 7 » 1 6 4 0 tN 
N 
21 NH 一 [十 1] 7 4 3 7 1 0 sssNH 
y 
22 —N— 7 5 2 T 3 0 dsN 
23 —N-— 7 5 2 7 3 1 aaN 
Se 
24 N— 7 5 3 8 2 0 sssN 
25 E | TN 7 5 3 8 2 0 ddsN( 硝 基 ) 
26 2 7 5 3 8 2 0 aasN( 氮 氧化 物 ) 
pu d 、 
27 N [41] 7 5 4 9 =] 0 ssssN( AS EE) 
28 —OH 8 5 I 6 4 0 sOH 
29 —O 8 6 1 7 5 0 dO 
30 —Q0 8 6 2 8 4 0 ssO 
31 一 O 一 8 6 2 8 4 1 “aaO 
32 =F 9 7 1 8 6 0 sF 
33 —PH» 15 3 1 4 2 0 sPH» 
34 —PH— 5 4 2 2 0 ssPH 
SS 
35 R= 15 5 3 8 2 0 sssP 
Z 
N 
36 —P= 15 5 4 9 1 0 dsssP 
"4 
NX 
37 =P 15 5 5 10 0 0 SSSSSP 
£N 
38 一 SH 6 5 6 4 0 sSH 
39 —S 16 6 1 7 5 0 dS 
40 —$8— 6 6 2 8 4 0 ssS 
41 —S— 16 6 2 8 4 1 aaS 
SS 
42 S— 16 6 3 9 3 0 dssSCsult ) 
y 
| 
43 n 6 6 4 10 2 0 ddssSCsult ) 
NIZ 
44 5 6 6 6 12 0 0 SSSSSSS 
ZION 
45 —(Cl 7 7 1 8 6 0 sCl 
46 一 SeH 34 5 1 6 4 0 sSeH 
47 一 Se 34 6 1 7 5 0 dSe 
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gU 
价 态 指数 
序号 元 素 基 团 基 团 符号 
ze ó* ôt +ô: D7 AR* 
48 一 Se 一 34 6 2 8 4 0 ssSe 
49 l 34 6 3 9 3 0 dssSe 
ces. 
| 
50 D 34 6 4 10 2 0 ddssSe 
51 —Pr 35 7 1 8 6 0 sBr 
52 —I 53 7 1 8 6 0 "sl 
八 、 邻 接 复 杂 度 的 信息 量 指数 及 其 应 用 


如 前 所 述 ， 化 学 图 论 和 数学 化 学 中 的 一 个 热点 问题 就 是 用 化 学 
基于 分 子 图 的 不 变量 或 拓扑 指数 被 用 来 定量 描述 分 子 的 形状 、 大 小 、 
实际 上 ， 人 们 还 可 用 信息 理论 来 描述 分 子 的 复杂 度 。 针 对 各 种 不 同 




















分 子 信息 论 指数 或 称 为 复杂 度 指数 。 以 Basak 
接 复杂 度 指数 [3~00] 























图 不 变量 表征 分 子 结构 。 许 多 
交叉 度 和 复杂 度 等 性 质 。 但 
的 化 学 图 ， 很 多 学 者 都 提出 了 
为 首 的 研究 小 组 就 提出 了 一 些 新 的 基于 信息 论 的 邻 
， 包 括 信 息 量 (IC)、 结 构 信 息 量 (SIC)、 相 对 非 结构 信息 








EX 


里 


(RNSIC) 和 





补偿 信息 量 (CIC)， 这 些 指 数 被 用 来 表征 分 子 中 拓扑 邻接 原子 的 不 均匀 性 和 元 余 性 。 








通过 这 些 指数 可 以 区 别 结构 





(一 ) 分 子 复杂 度 指数 简介 











FE 常 相近 的 分 子 结构 ， 定 量 描述 分 子 间 的 结构 相似 性 。 
明 这 些 指数 的 数学 基础 及 计算 方法 ， 同 时 还 提供 了 它们 在 QSAR 研究 中 站 





应 用 实例 。 


分 子 复杂 度 指 数 (molecular complexity indices). 可 粗 分 为 两 类 ， 即 中 拓扑 复杂 度 指 数 和 四 化 
学 复杂 度 指 数 。 这 样 分 类 应 该 可 将 传统 的 化 学 结构 与 活性 QSAR 或 化 学 结构 与 性 质 (QSAP) 











研究 思路 变 
论 是 对 于 隐 氧 图 或 3 


得 更 清晰 ， 特 别 是 将 分 子 的 物理 化 学 性 质 与 其 生物 活性 相关 
E 隐 氧 图 ， 如 果 只 注意 到 拓扑 的 变化 ， 则 对 二 氧 甲 烷 、 一 氧 一 澳 甲 烷 和 二 澳 甲 





闫 时 更 是 如 此 。 比 如 ,无 








烷 无 法 区 分 。 所 以 ， 实 际 上 分 子 还 应 存在 着 化 学 复杂 性 指数 ， 在 这 里 ， 每 种 不 同 的 原子 的 化 学 性 
质 最 好 能 被 考虑 进去 。 比 如 ， 可 以 通过 加 权 图 的 键 合 拓扑 来 表征 不 同 元 素 的 特征 ， 或 者 是 通过 不 
同 原子 的 物理 化 学 或 几何 特性 来 区 分 它们 的 化 学 复杂 度 。 实 际 上 ， 以 Basak 为 首 的 研究 小 组 提出 











了 一 些 新 的 邻接 复杂 度 指 数 衣 


i 是 这 样 一 些 













































































C 2 信息 量 、 结构 信息 量 及 补偿 息 量 参数 的 计 算 
分 子 结构 的 信息 量 (information content, ICh) 的 计算 实际 上 就 是 采用 式 (9-18)， 即 所 谓 仙 




















表征 化 学 复杂 度 的 指数 。 











农 箭 的 计算 公式 ， 它 同样 可 以 计算 分 子 图 中 的 每 个 顶点 的 & 级 邻接 信息 的 整体 信息 量 ， 即 
IC=— XP; log P; (bit) 





(9-18) 


RF, P: 为 一 具有 概率 性 质 的 实数 〈 参 见 第 一 章 )。 对 于 分 子 结构 ， 邻 接 信息 被 分 为 多 级 


(参见 




















图 9-12 与 图 9-13)， 所 以 ， 邻 接 复杂 度 指 














数 可 用 来 表征 分 子 中 拓扑 邻接 原子 的 不 均匀 性 和 元 


余 性 。 可 以 说 ， 通 过 这 些 邻 接 复杂 度 指 数 ， 同 样 可 以 区 别 结构 非常 相近 的 分 子 结构 并 定量 描述 分 
子 间 的 结构 相似 性 。 在 实际 使 用 中 ， 可 以 定义 和 计算 几 种 不 同 邻 接 复杂 度 指数 ， 即 所 谓 的 结构 信 
相对 非 结 构 信 息 量 (relative nonstructural information 
content, RNSIC) 及 补偿 信息 量 (complementary information content, CIC.) 参数 [60] 。 
下 面 由 图 9-12 和 图 9-13 示 出 的 丁 基 醇 为 例 来 说 明 不 同 级 数 的 邻接 复杂 度 指数 的 具体 计 
算 。 首 先 ， 从 图 9-12 可 以 看 出 ， 从 丁 基 醇 结 构 的 含 氧 图 可 知 ， 该 化 合 物 共 有 12 个 项 点， 对 











息 量 (structural information content, SIC,), 
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H, H, 

于 一 级 邻接 来 说 ， 就 将 会 有 12 种 邻接 方式 。 同 样 从 图 可 以 看 出 ， 人 7 fh C—H 的 

邻接 是 相同 的 ， 占 7/12， 故 其 P; 值 就 是 7/12; 另外 ， 它 还 存在 有 5 种 不 同 的 一 级 邻接 ， 即 
O; As "Fas. "Fes. 4n p. AEE 

da ^c HZ NC, HZ ACHU SC， 各 所 1/12， 故 它们 的 P: 值 就 者 是 1/12, 8 


了 这 些 基 础 数据 ， a 行 邻 接 复 杂 度 指数 的 计算 了 。 首 先 ， 分 子 结构 的 信息 量 dC) 的 
计算 可 由 下 式 给 出 ， 县 














1 1 7 
a E iX leg SEL 950 (bit) 





而 它 的 结构 信息 量 (SIC) 
SIC; — ICi/log212 —0. 544 (bit) 





补偿 信息 量 (ICI) 


CIC; —1og;12 — IC, =1. 635 (bit) 














H; 
| H | 
Bis pup => 
of | "cr | ^H. 标记 图 
H; H; 
5 
I II II IV V VI 
H H H C C C 
| 4 Due S egi E d ve: avo: gave 
O C C H O HC HH 
子 集 : 
I II II IV V VI 
) (HHs) (0) (C) (C5) (C3) 
概率 P 
I II II IV V VI 


1/12 7/12 1/12 1/12 1/12 1/12 
丁 基 醇 的 一 级 邻接 复杂 度 指 数 计算 示意 图 


和 相对 非 结 构 信 息 量 (RNSIC) 
RNSIC1 = (logz12 — IC1)/1ogz12 = (3. 585 — 1. 9502/3. 585 —0. 456 
同 理 ， 对 于 图 9-13 示 出 的 丁 基 醇 的 二 级 邻接 情况 ， 邻 接 复杂 度 指 数 的 计算 则 是 由 下 列 
各 算式 得 到 





. 12 


Ics x (二 log: 12 5002 19 2 12 


5) oe T TTE loge 


SIC?» = IC»/logs12 — 0. 796 (bit) 
CIC; —1og212 — ICs —0. 730 (bit) 


RNSIC? = (log212 — IC2)/10ogz12 = (3. 585 — 2. 8552/3. 585 — 0. 204 


663 | 
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H, He 
H | T d 
of crT ~H。 标记 攻 
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二 级 邻接 : 
il Il II IV 
T" p T T il Hg H; Hg 
” AA LAN. IN 人 
| id aei oe ii ot Hac Hac Hyg 
V VI VII VII 
O, 1 JL. -一 3 
ZN s BIN 7 & ESG 
u^ y. {bp [NU RN 
/|\ | /N /NHE HHC 
HHC HHC o 
Iu 
I II II IV V VI VI WH 
(H)  (H;-Hj) (H4-H;) (He-Hs) (0) (Ci) (C2) (C3) 
概率 已， 
I II II IV V VI Vil WH 
1/12 2/12 2/12 3/12 1/12 1/12 1/12 1/12 


丁 基 醇 的 二 级 邻接 复杂 度 指数 计算 示意 图 























(三 ) 邻接 复杂 度 指 数 的 QSAR 应 用 

分 辨 率 是 拓扑 分 子 描述 子 的 一 个 重要 特征 。 一 般 说 来 ， 分 状 率 越 高 越 好 。 为 检验 邻接 复 
杂 度 指数 的 分 辨 紊 ，Basak 等 特别 收集 38 个 同 谱 (isospectral) 结构 的 化 合 物 (参见 图 
9-14)， 计 算 了 它们 的 分 子 连接 性 指数 "X、1X 及 ?2X， 及 邻接 复杂 度 指数 IC。、IC1 和 IC。( 参 
见 表 9-23)[61 。 从 图 9-14 可 以 看 出 ， 这 些 化 合 物 不 但 很 多 是 同 分 异 构 而 且 有 一 部 分 是 同 谱 
结构 的 化 合 物 ， 要 区 分 它们 的 确 不 容易 ;从 表 9-23 看 出 ， 有 很 多 化 合 物 ， 分 子 连接 性 指数 " 
X V X 是 难于 将 它们 分 辨 的 ， 但 此 时 采用 邻接 复杂 度 指数 ， 即 IC。、IC1 和 和 IC， 有 可 能 将 它们 
分 辨 。 当 然 ， 其 中 分 辨 率 最 高 的 还 是 分 子 连 接 性 指数 2X 。 


38 个 同 谱 图 的 部 分 拓扑 与 邻接 复杂 度 指数 



































编号 0 wy x 2% IC, IC, IC; 
b: 8. 690 5. 219 3. 859 0. 898 . 368 2. 665 
1.2 8. 690 5. 240 3. 812 0. 898 1. 368 2. 701 
2 8.975 5. 812 4. 424 0. 918 1. 418 2.675 
2,3 8. 975 5. 791 4. 502 0. 918 418 2. 828 
3.1 11. 380 7. 847 6. 318 0. 932 384 2.726 
3.2 11. 380 7. 826 6. 396 0. 932 384 2. 664 
4.1.1 9. 966 6. 847 5. 610 0. 934 417 2. 784 
4. 1.2 9. 966 6. 826 5. 689 0. 934 417 2.765 
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BK 

编号 2 "X 1% 2% ICo IC; IC, 
4.2.1 9. 966 6. 864 5. 526 0. 934 1. 417 2. 684 
4.2.2 9. 966 6. 864 5. 526 0. 934 1. 417 2. 684 
5. 8. 975 5. 753 4. 643 0. 918 418 2. 807 
DA 8. 975 5. 774 4. 575 0. 918 418 2.717 
6. 9. 682 6. 291 4. 856 0. 918 1. 404 2.789 
6.2 9. 682 6. 312 4. 766 0. 918 1. 404 2.565 
7.1.1 11. 121 7. 809 6. 906 0. 946 457 2.794 
Te dd 11. 121. 7. 809 6. 908 0. 946 457 2. 982 
dar 2s d 11. 121 7. 809 6. 896 0. 946 1. 457 2.856 
EE 11. 121 7. 809 6. 896 0. 946 1. 457 2.856 
8.1 7. 845 5. 326 4. 628 0. 938 469 2. 802 
8.2 7. 845 5. 326 4. 618 0. 938 469 2.995 
9. T. 10. 889 T R PA 6. 134 0. 933 1. 517 2.978 
9.1.2 10. 889 7. 220 6. 193 0. 933 1.517 2. 885 
9.2.1 0. 836 7. 258 6. 116 0. 933 458 2. 928 
9.2.2 0. 836 7. 236 6. 194 0. 933 458 2. 928 
9.3. 10. 836 7. 274 6. 041 0. 933 1. 458 2. 864 
9.3.2 10. 836 7. 274 6. 004 0. 933 1. 458 2. 974 
01,1 2. 535 8. 847 7. 431 0. 943 429 2. 664 
0. 1,2 2.535 8. 809 7.594 0. 943 429 2.729 
10. 2. 12. 588 8. 805 17.518 0. 943 1. 483 2. 764 
10. 2.2 12. 588 8. 815 7. 482 0. 943 1. 483 2. 764 
Di 2, 535 8. 847 7. 443 0. 943 429 2.760 
0.3.2 2. 535 8. 847 7. A41 0. 943 429 2.729 
10. 4. Be D39 8. 847 7. 431 0. 943 1. 429 2.664 
10. 4.2 2. 03D 8. 830 17.516 0. 943 1. 429 2.769 
LLI 1. 380 7. 809 6. 458 0. 932 . 384 2.589 
1d 2 1. 380 7. 830 6. 378 0. 932 . 384 2. 438 
11.2; 11. 380 7. 847 6. 306 0. 932 1. 384 2. 622 
11.2.2 11. 380 7. 847 6. 308 0. 932 1. 384 2.595 

加 它们 的 稳 氧 拓扑 图 参见 图 9-14 ,此 编号 为 图 9-14 中 各 子 图 的 编号 。 


单 酮 的 毒性 ” 单 酮 是 一 组 常 月 











日 的 工业 溶剂 ， 对 它们 的 毒性 研究 也 是 一 件 十 分 有 趣 的 习 
Basak 研究 小 组 对 此 采用 本 节 所 讨论 的 基于 信息 理论 的 邻接 复杂 度 指 数 对 单 酮 的 毒性 进行 了 
研究 ， 所 得 结果 列 于 表 9-24. KH logP 和 邻接 复杂 度 指数 ， 即 TICo. TICi. CICo, 





pu 


CIC1， 对 单 酮 的 毒性 进行 QSAR 建 模 分 析 ， 所 得 结果 列 于 表 9-25， 可 见 邻 接 复杂 度 指 数 不 


失 为 一 个 很 好 的 分 子 描述 子 。 
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6.2 7.2.1 43:22:27 


10.3.1 


9.3.1 


10.1.1 


10.2.1 


9.3.2 
10.4.1 
10.1.2 1.1.1 
11.2.1 
10.2.2 


38 个 同 谱 化 合 物 的 隐 和 氢 图 


4.1.2 


4.2.2 


10.3.2 


10.4.2 


11.1.2 


11.2.2 


表 9-24 
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口服 LDs。、logP 及 多 个 单 酮 的 拓扑 指数 





表 9-25 







































































































































































化 合 物 i i Ee logP TIC, TIC, CIC, CIC, 
LD, LD3, 

丙酮 90. 39 73.35 — 0. 48 12. 955 15. 710 2. 026 1.751 
甲乙 酮 56. 16 45. 86 0. 26 16. 106 22. 108 2. 462 2. 000 
AE TE PI AE d 25. 60 23.13 0. 78 19.171 26.781 2. 802 2.326 
甲 基 异 丙 基 酮 29. 86 26. 98 0. 56 19. 171 26.026 2. 802 2.373 
HEIE J AER 24. 26 16.17 1. 19 22.181 30. 936 3. 080 2.620 
Hr dk se Tp AER 26. 66 19. 75 1.31 22.181 32. 936 3. 080 2.514 
基 正 戊 基 酮 21. 08 10. 39 2. 03 25.153 34. 804 3. 316 2.877 
EP S J AE 22.26 10.99 1. 88 25.153 38. 050 3. 316 2.730 
A IE ci AE 29. 82 12.38 2.37 28.096 38. 487 3.520 3. 104 
甲 基 正 庚 基 酮 56. 19 26. 59 3. 14 31. 018 42. 038 3. 700 3. 306 
甲 基 3- EH XE ch ks jid 33. 80 23.90 92 31.018 46. 792 3. 700 3.136 
HH ETE SE AE Aih 50. 79 15.99 3. 73 33. 922 45. 790 3. 860 3. 487 
HE iE T AE 114. 40 32.07 4. 09 36. 812 48. 866 4. 005 3. 650 

(D 单位 为 mmol/kg 


对 表 9-24 中 所 列 单 酮 的 LDso 采 用 logP 和 4 个 拓扑 指数 所 得 QSAR 建 模 所 得 结果 



























































独立 工 Dso( 对 照 品 )=4 十 BX 十 CX2 LDs,(CCl,) =A +BX CX? 
变量 (X) A B C r? SD F A B c r? SD F 
logP | 62.20 | —49.70 | 14.30 | 0.94 1.04 | 35.94 | 50.50 | —34.00 | 7.34 | 0.94 | 6.70 | 34.82 
TIC, |340.00 | —26.40 | 0.54 | 0.96 9.13 | 54.87 216.00 | —15.00 | 0.28 | 0.95 6.10 | 43.12 
TIC, |288.00 | —16.30 | 0.25 | 0.86 6.10 | 14.25 |195.00 | —9.85 | 0.13 | 0.97 | 4.68 | 76.61 
CIC, |718.00 |—457.00 | 74.80 | 0.91 | 12.99 | 24.57 |407.00 |—235.00 |35.10 | 0.97 | 4.76 | 74.05 
CIC, |620.00 |—448.00 | 83.50 | 0.95 9.62 | 48.88 364.00 |—239.00 | 40.70 | 0.96 | 5.54 | 53.27 

注 : ”一 相关 系数 ，SD 一 偏 准 偏差 ; 下 一 观测 的 变量 与 计算 值 之 间 的 比率 。 


际 上 ，QSAR 研究 的 三 维 模型 








第 五 节 ”化 学 构 效 关系 (QSAR) 研究 的 三 维 模型 


众所周知 ， 在 化 学 构 效 关系 的 研究 中 ， 分 子 的 化 学 性 质 应 该 是 与 分 子 的 立体 构 型 密切 相 
关 的 。 所 以 ， 在 人 们 进行 基于 图 论 的 分 子 拓扑 指数 的 数值 描述 子 的 研究 过 程 中 ， 一 直 都 也 在 
关注 着 如 何 将 分 子 的 立体 结构 与 构 型 的 影响 宫 括 于 化 学 构 效 关系 QSAR) 的 研究 之 中 。 实 
































直 是 化 学 构 效 关系 及 计算 机 辅助 药物 分 子 设 计 的 研究 中 备 


受 关注 的 问题 [3,53] 。 由 于 QSAR 研究 的 三 维 模型 多 与 分 子 设 计 连 在 一 起 ， 并 且 还 将 涉及 很 














多 量子 化 学 或 是 分 子 力学 的 计算 问题 ， 应 属于 化 学 基础 研究 的 一 个 核心 问题 。 可 以 说 ， 三 维 


定量 构 效 关系 〈3D-QSAR) 就 是 引入 了 分 子 三 维 结构 信息 进行 定量 构 效 关系 研究 的 方法 ， 














而 且 ， 这 种 方法 还 间接 地 反映 了 分 子 与 生物 大 分 子 相互 作 月 


Te 


QSAR 的 关键 ; @ 配 体 
的 弱 作 用 力 实 现 的 ， 如 背 


























日 过 程 中 两 者 之 间 的 非 键 相互 作用 








E， 相 对 于 二 维 定量 构 效 关系 有 更 加 明确 的 物理 意义 和 更 丰富 的 信息 量 。 它 们 的 主要 思 
就 是 : 中 分 子 的 形状 和 构象 在 一 定 程度 上 影响 
(或 药物 ) 分 子 与 受 体 之 间 的 相互 作用 是 借助 可 逆 的 、 非 共 价 结合 


其 生物 活性 ， 分 子 的 活性 构象 是 研究 3D- 








电 引 力 、 玻 水 作用 、 氢 键 、 范 德 华 引 力 等 。 由 于 3D-QSAR 直接 反 
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映 配 体 (或 药物 ) 分 子 与 受 体 三 维 空间 上 的 互补 性 ， 更 准确 表达 了 配 体 (或 药物 ) 与 受 体 之 
间 的 相互 作用 ， 因 此 ， 近 年 来 3D-QSAR 方法 得 到 了 迅速 的 发 展 。 一 般 说 来 ， 它 们 包括 距离 
几何 学 三 位 定量 构 效 关系 (DG 3D-QSAR )、 假 设 活性 网 格 法 (HASL)、 比 较 分 子 场 
(CoMFA) 法 、 比 较 分 子 矩 分 析 法 (CoMMA)、 比 较 分 子 相 似 性 指数 分 析 法 (CoMSIA)、 
分 子 形状 分 析 (MSA)、 虚 拟 受 体 (FR) 方法 等 。 早 在 1979 年 ，Crippen 就 提出 了 基于 
“距离 几何 学 的 3D-QSAR"L€-—5717r715; 1980 年 ，hopfinger 等 也 提出 了 “分 子 形状 分 析 方 
ik" [68—70; 1988 年 ，Cramer 等 人 提出 了 “比较 分 子 场 方法 ” (CoMFAOUM, HI SEA TS 
方法 的 提出 ， 引 起 了 化 学 构 效 关系 研究 学 界 的 高 度 重 视 ， 此 法 很 快 得 到 了 药物 设计 领域 的 应 
用 ， 成 为 了 应 用 最 广泛 的 基于 定量 构 效 关系 的 药物 设计 方法 之 一 。20 世纪 90 年 代 后 ， 又 出 
现 了 在 比较 分 子 场 方 法 基础 上 改进 的 “比较 分 子 相 似 性 方法 ”以 及 在 “距离 几何 学 的 3D- 
QSAR” 基 础 上 发 展 的 “虚拟 受 体 方 法 ”等 新 的 三 维 定量 构 效 关系 方法 [273]， 但 是 ， 
CoMFA 依然 还 是 目前 使 用 最 广泛 的 定量 构 效 关系 方法 之 一 。 

3D-QSAR 的 基本 原理 就 是 利用 数学 和 统计 学 方法 对 配 体 (或 药物 ) 的 化 学 结构 信息 
(如 各 种 取代 基 人 参数、 拓扑 指数 以 及 量子 化 学 与 分 子 力学 计算 参数 ) 与 其 生物 活性 之 间 的 关 
系 进行 定量 分 析 ， 找 出 结构 与 活性 间 的 量变 规律 ， 然 后 根据 这 种 规律 及 未 知 化 合 物 的 结构 来 
预测 未 知 化 合 物 的 性 能 。 表 9-26 列 出 了 部 分 3D-QSAR 方法 的 简单 分 类 人 情况。 从 表 9-26 也 
可 以 看 出 ，3D-QSAR 方法 的 确 涉 及 面 较 广 。 


ERA 3D-QSAR 方法 的 一 种 简单 分 类 
分 类 基础 3D-QSAR 方法 
基于 分 子 相互 作用 的 方式 或 信息 来 发 展 的 3D-QSAR 方法 






























































CoMFA.CoMSIA.COMPASS, 


基于 配 体 信 息 的 3D-QSAR 方法 
配 体 信息 的 3D-QSAR Jr GERM,CoMMA,SoMFA,DJ-3D-QSAR 




















于 受 体 体 信 息 的 3D-QSAR 方法 COMBINE,AFMoC,HIFA,CoRIA 
是 否 基于 校准 的 3D-QSAR 方法 








CoMFA.CoMSIA.GERM .COMBINE. 


依赖 校准 的 3D-QSAR 方法 AFMoC, HIFA ,CORIA 





COMPASS.CoMMA.HQSAR. 


不 依赖 校准 的 3D-QSAR 方法 WHIM.EVA/CoSA.GRIND 





是 否 基 于 化 学 计量 学 方法 的 3D-QSAR 方法 





CoMFA.CoMSIA. AFMoC. 


ÆW 2313.08 E 
线性 3D-QSAR 方法 GERM. CoMMA ,SoMFA 





非 线性 3D-QSAR 方法 COMPASS,QPLS 








由 于 近年 来 3D-QSAR 方法 发 展 较 快 ， 出 现 了 很 多 新 方法 和 新 名 词 ， 为 方便 读者 阅读 ， 
在 此 特意 将 部 分 3D-QSAR 方法 的 英文 人 全称、 缩写 及 中 文 解释 收集 起 来 ， 列 成 表格 以 方便 读 
者 查找 (参见 表 9-27), 

在 介绍 了 这 些 基本 情况 后 ， 本 节 将 只 对 上 述 方法 中 的 距离 几何 3D-QSAR 方法 、 分 子 形 
状 分 析 方 法 、 比 较 分 子 场 方 法 和 虚拟 受 体 方法 给 出 必要 的 介绍 。 


部 分 3D-QSAR 方法 的 英文 全 称 、 缩 写 及 中 文 解释 
英文 缩写 英文 全 称 中 文 解释 














CoMMA comparative molecular moment analysis 比较 分 子 矩 分 析 方 法 
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英文 缩写 英文 全 称 中 文 解释 
SoMFA self-organizing molecular field analysis 自 组 织 分 子 场 分 析 方法 
COMBINE comparative binding energy analysis 比较 结合 能 分 析 方法 
AFMoC adaptation of fields for molecular comparison 适应 场 的 分 子 比较 方法 
CoRIA comparative residue interaction analysis 比较 残留 相互 作用 分 析 方法 
HQSAR hologram QSAR 全 息 化 学 构 效 关系 研究 方法 
WHIM weighted holistic invariant molecular 整体 加 权 分 子 不 变 方法 
EVA/CoSA Ton descriptor ( EVA) /comparative spectra analysis 基于 分 子 描述 子 的 比较 谱 分 析 方法 
GRIND grid-independent descriptor 独立 于 网 格 的 描述 符 
QPLS quadratic partial least squares regression 二 次 偏 最 小 二 乘 回 归 
CoMPIA comparative molecule/pseudo receptor interaction analysis 比较 分 子 / 伪 受 体 相互 作用 分 析 方 法 
CoMSIA comparative molecular similarity indices analysis 比较 分 子 相似 性 指数 分 析 方 法 
HASL the hypothetical active site lattice 假设 活性 网 格 法 
PARM pseudo atomic receptor model 伪 原 子 受 体 模型 方法 
VFA voronoi field analysis Voronoi 图 场 分 析 方 法 
RSA/RSM/ receptor surface analysis/modeling, comparative receptor 受 体 表面 分 析 / 建 模 , 比较 受 体 表面 
CoRSA surface analysis 分 析 方 法 
CoMSA comparative molecular surface analysis 比较 分 子 表面 分 析 方 法 
Compass receptor model based on molecular surface property 基于 形态 的 受 体 模型 方法 
CoMFA comparative molecular field analysis 比较 分 子 场 分 析 方 法 
DG3D-QSAR distance geometry 3D-QSAR 距离 几何 的 3D-QSAR 方法 
MSA molecular shape-analysis 分 子 形态 方法 
CoMSIA comparative molecular similarity index analysis 比较 分 子 相似 因子 分 析 方 法 
PR methods based on pseudo receptor 虚拟 受 体 方法 
GERM genetically evolved receptor model 遗传 进化 受 体 模型 
























































、 距 离 几 何 的 3D-QSAR 方法 


1979 年 ，Crippen 提出 了 基于 距离 几何 方法 (distance geometry. DG) 的 3D-QSAR 77 
这 种 方法 的 主要 思路 是 首先 将 配 体 (药物 ) 分 子 划 分 为 若干 功能 区 块 ， 以 定义 配 体 〈( 药 
物 ) 分 子 的 活性 位 点 ， 计 算 其 以 低能 构象 存在 时 各 个 活性 位 点 之 间 的 距离 ， 以 形成 距离 矩 
阵 。 同 时 ， 再 定义 受 体 分 子 的 结合 位 点 ， 获 得 结合 位 点 的 距离 和 矩阵， 通过 活性 位 点 与 结合 位 
点 的 匹配 ， 为 每 个 分 子 生成 结构 参数 ， 并 对 其 生理 活性 数据 进行 统计 分 析 和 建立 QSAR 分 
析 模 型 。 这 种 方法 认为 ， 药 物 与 受 体 之 间 的 结合 能 力 就 是 通过 配 体 (药物 ) 分 子 中 活 位 基 团 
和 受 体 中 相应 结合 位 点 之 间 的 直接 相互 作用 决定 的 。 实 际 上 ， 这 种 基于 距离 几何 的 3D- 
QSAR 方法 及 其 定量 构 效 关系 研究 ， 从 严格 意义 说 ， 应 该 属于 一 种 介 于 二 维和 三 维 之 间 的 
QSAR 方法 。 

基于 距离 几何 的 3D-QSAR 方法 可 以 由 以 下 步骤 构成 。 

CD 定义 配 体 (药物 ) 分 子 中 可 能 的 作用 位 点 ”这 些 作 用 位 点 可 能 是 和 受 体 直接 作用 的 
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部 位 ， 结 合 位 点 类 型 的 活 位 基 团 。 在 距离 几何 的 3D-QSAR 的 方法 中 ， 作 用 位 点 采用 空间 中 
的 一 组 点 来 定义 ， 一 个 作用 位 点 可 以 对 应 一 个 原子 ， 也 可 以 对 应 一 个 基 团 ， 如 在 图 9-15 中 ， 
糜 蛋 白 酶 抑制 剂 m ,m- 二 甲 基 茶 氧 基 丙 酮 采用 五 个 作用 位 点 来 表达 ， 图 中 点 1 与 痰 基 碳 重 
B, A2 与 醚 氧 重合 ， 点 4 和 点 5 与 甲 基 和 重合， 而 点 3 则 位 于 茶 环 的 几何 中 心 。 

















EE x EA EST BUR] m,m- 二 甲 基 茶 
氧 基 丙 酮 中 配 体 作用 位 点 的 定义 


(2) 计算 配 体 〈 药 物 ) 分 子 的 距离 矩阵 从 原子 的 距离 矩阵 得 到 配 体 分 子 中 作用 位 点 的 
距离 矩阵 。 

(3) 定义 受 体 结合 位 点 的 分 布 “ 受 体 结合 位 点 能 直接 和 配 体 作 用 位 点 产生 相互 作用 ， 受 
体 结合 位 点 之 间 的 相对 位 置 也 采用 距离 矩阵 来 表达 。 受 体 结合 位 点 分 为 两 类 ， 即 所 谓 的 空位 
点 和 满 位 点 。 空 位 点 表示 配 体 分 子 能 够 进入 并 与 受 体 相互 作用 的 位 点 ， 而 满 位 点 则 表示 被 受 
体 分 子 占 领 ， 而 配 体 分 子 不 能 进入 的 位 点 。 空 位 点 通常 是 根据 几 个 活性 较 高 的 分 子 的 活性 构 
象 得 到 ， 而 满 位 点 则 通过 一 些 活性 较 低 的 分 子 的 空间 结构 信息 得 到 。 

(4) 确定 受 体 结合 位 点 的 分 布 通过 配 体 (或 药物 ) 分 子 结合 位 点 以 及 受 体 分 子 活性 位 
点 的 距离 矩阵 来 确定 最 佳 的 结合 模式 以 及 受 体 活性 位 点 的 空间 分 布 ， 对 于 配 体 (或 药物 ) 分 
子 结合 位 点 以 及 受 体 分 子 活 性 位 点 相互 作用 ， 需 要 保证 一 个 结合 位 点 只 能 和 活性 位 点 结合 ， 
而 一 个 活性 位 点 也 只 能 和 一 个 结合 位 点 结合 。 在 计算 过 程 中 ， 只 有 配 体 (或 药物 ) 分 子 的 结 
合 位 点 进入 到 活性 位 点 的 周围 半径 x 的 球形 范围 之 内 ， 才 能 认为 结合 位 点 和 活性 位 点 之 间 产 
生 了 结合 。 
配 体 ( 或 药物 ) 分 子 和 受 体 分 子 之 间 的 结合 能 力 采用 下 面 的 公式 来 计算 ， 
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式 中 ， 瓦 .为 分 子 的 构象 能 ，c 为 待定 系数 ; n6 为 第 i 个 分 子 占据 受 体 结合 位 点 的 数目 ， 
Ts 为 受 体 结合 位 点 的 类 型 ,Tl 为 配 体 (药物 ) 分 子 结合 位 点 始 的 类 型 ，XTsTn 为 Ts 类 活 
性 位 点 和 T 类 结合 位 点 之 间 的 结合 能 。 通 过 拟 合 来 确定 结合 位 点 能 参数 Ts 和 Tl。 在 距离 
几何 的 3D-QSAR 中 ， 常 常 假设 构象 能 比 结合 能 小 得 多 ， 因 此 可 令 Eo—0. 

值得 提出 的 是 ， 在 计算 过 程 中 ， 需 要 不 断 调整 结合 模式 以 达到 最 好 的 拟 合 程度 。 如 果 调 
整 结 合 模式 不 能 得 到 很 好 的 结果 ， 那 么 配 体 〈 药 物 ) 分 子 中 的 结合 位 点 的 定义 可 能 存在 一 定 
的 问题 ， 计 算 需 要 返回 到 第 一 步 重 新 定义 新 的 结合 位 点 ， 直 到 得 到 最 佳 的 结果 为 止 。 

在 距离 几何 的 3D-QSAR 中 ， 受 体 结合 位 点 和 配 体 〈 药 物 ) 作用 位 点 之 间 的 相互 作用 模 
式 以 及 空间 位 置 的 确定 比较 复杂 。Crippen 等 发 展 了 改进 的 算法 来 解决 这 个 问题 "1 。 
Crippen 等 把 受 体 结合 部 位 划分 为 几 个 区 域 ， 照 Voronoi 多 面体 表示 这 些 结合 区 域 ， 药 物 分 
子 的 结构 用 少数 几 个 能 反映 其 结构 性 质 的 向 量 来 表示 ， 并 通过 优化 实际 数据 来 更 好 地 确定 最 
佳作 用 模式 ， 并 求 得 相应 的 结合 参数 。 

和 传统 的 2D-QSAR 比较 ， 距 离 几 何 的 3D-QSAR 不 仅 能 提供 配 体 (药物 ) 活性 预测 模 
型 ， 还 能 得 到 受 体 和 配 体 〈 药 物 ) 之 间 可 能 的 相互 作用 信息 ， 但 距离 几何 的 3D-QSAR 在 配 
体 〈 药 物 ) 作用 位 点 的 定义 上 具有 较 大 的 主观 性 ， 而 且 在 计算 的 操作 上 也 较为 繁 瑞 ， 故 这 种 
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方法 虽 已 提出 有 几 十 年 ， 但 其 研究 范围 还 基本 上 局 限于 Crippen 的 科研 小 组 。 
二 、 分 子 形态 分 析 方 法 


分 子 形状 分 析 (molecular shape-analysis, MSA) 方法 认为 ， 配 体 〈 或 药物 ) 分 子 的 活 
性 构象 是 决定 其 活性 的 关键 ,通过 比较 作用 机 理 相 同 的 配 体 (或 药物 ) 分 子 的 形状 ， 以 获得 
各 分 子 间 重 县 体积 等 数据 ， 即 可 作为 结构 参数 进行 统计 分 析 以 获得 有 用 的 构 效 关系 模型 ， 
1980 年 ，Hopfinger 等 就 提出 了 分 子 形状 分 析 方 法 I~ "3。 目 前 ， 此 方法 已 经 作为 Cerius2 
中 的 分 子 形状 分 析 模 块 实现 了 商业 化 [7?] 。 

分 子 形状 分 析 方 法 的 目的 就 是 要 找 出 配 体 (或 药物 ) 分 子 空间 形态 的 相似 性 和 差别 与 活 
性 的 关系 。 分 子 形状 分 析 (MSA) 认为 ,柔性 配 体 (或 药物 ) 分 子 可 能 存在 多 种 构象 ， 但 
配 体 和 受 体 相互 作用 时 其 活性 构象 的 形态 是 确定 的 。 因 此 ， 配 体 (或 药物 ) 分 子 的 活性 与 配 
体 分 子 的 形状 对 活性 口袋 的 适应 能 力 有 关 。 分 子 形状 分 析 MSA) 方法 使 用 了 一 些 与 分 子 
形状 有 关 的 参数 ， 比 如 与 参考 分 子 之 间 的 重 芭 体积 以 及 分 子 势 场 积 分 差异 等 作为 变量 ， 经 过 
比较 分 析 ， 再 通过 统计 方法 得 到 QSAR 模型 。 分 子 形状 分 析 实 际 是 基于 配 体 (或 药物 ) 分 
子 的 一 种 3D-QSAR 方法 I"””] ， 它 着 重 于 构建 一 个 可 对 分 子 形状 进行 定量 分 析 和 人 处 理 的 特征 
提取 和 表征 的 构 效 关系 模型 。 配 体 (或 药物 ) 分 子 的 构象 能 量 可 由 一 包含 色散 /立体 静电 ， 
如 必要 还 包括 氧 键 合力 的 固定 价 几 何 分子 力 场 (fixed valence geometry molecular mechanics 
force-field) 来 估计 。 对 每 个 化 合 物 首先 得 到 分 子 内 的 最 低能 量 并 记录 ， 以 此 为 起 点 计算 严 
格 的 固定 价 几 何 能 的 最 小 值 。 在 决定 严格 的 构象 最 低能 的 过 程 中 ，LBA-LCS， 所 谓 构 象 稳 
定性 损失 换 生 物 活性 损失 的 思路 (loss in biological activity-loss in conformational stability. 
LBA-LCS) 被 应 用 ， 即 那些 对 活性 化 合 物 稳定 的 低能 态 ， 是 一 些 对 于 那些 无 活性 的 化 合 物 
的 不 稳定 态 ， 它 们 是 处 于 高 能 态 的 。 先 选择 一 个 分 子 的 活性 构象 作为 参考 构象 ， 继 将 训练 集 
的 活性 配 体 分 子 与 其 进行 释 合 和 校准 ， 通 过 比较 ， 找 到 它们 之 间 的 共同 点 及 不 同 之 处 ， 通 过 
融合 来 获得 一 个 公共 重 共 立体 体积 (common overlap steric volume，COSV)。 也 可 以 选用 
多 个 分 子 的 活性 构象 作为 参考 构象 来 构建 多 个 3D-QSAR 模型 ， 从 模型 的 回归 能 力 以 及 统计 
能 力 来 判断 选取 哪个 参考 构象 合适 ， 然 后 再 确定 公共 重要 立体 体积 〈COSV)。 最 终 ， 分 子 
形状 的 相似 性 描述 子 及 非 分 子 形 状 的 描述 子 将 通过 多 元 线性 回归 (MLR) 技术 对 训练 集 的 
活性 分 子 的 生物 活性 进行 相关 分 析 。 当 然 ， 别 的 化 学 计量 学 方法 ， 如 偏 最 小 二 乘法 PLS) 
和 遗传 算法 (GA) 也 是 可 以 使 用 的 。 值 得 指出 的 是 ， 通 过 分 子 形状 分 析 所 得 的 结果 可 通过 
图 像 表 示 出 来 ， 即 它 可 以 显示 为 最 具 活 性 的 一 类 配 体 的 构 型 或 是 最 具 活 性 的 配 体 分 子 与 训练 
其 他 分 子 的 形状 著 合 的 几何 构 型 。 

从 上 述 分 析 可 知 ， 分 子 形状 分 析 方 法 的 计算 首先 是 对 药物 分 子 进行 构象 分 析 ， 然 后 确定 
分 子 的 活性 构象 ， 活 性 构象 的 确定 是 所 有 3D-QSAR 方法 共同 面临 的 问题 。 所 以 ， 分 子 形状 
分 析 方 法 在 计算 中 需要 选择 一 个 分 子 的 活性 构象 作为 参考 构象 ， 其 他 所 有 分 子 的 活性 构象 都 
要 重 县 在 这 个 参考 的 构象 上 来 ， 以 求 得 各 分 子 的 分 子 形状 参数 。 活 性 构象 的 确定 以 及 参考 构 
象 的 选择 可 能 是 MSA 计算 成 功 与 否 的 关键 因素 。 在 MSA 计算 中 ， 也 可 以 选用 多 个 分 子 的 
活性 构象 作为 参考 构象 来 构建 多 个 3D-QSAR 模型 ， 从 模型 的 回归 能 力 以 及 统计 结果 来 判断 
选取 哪个 参考 构象 合适 ， 然 后 是 确定 公共 重叠 立体 体积 Vo (i,j)， 它 表示 参考 分 子 体积 和 药 
物 分 子 体积 之 和 减 去 两 个 分 子 重合 和 占有 的 总 体积 ， 这 个 参数 是 最 早 使 用 的 分 子 形状 参 
数 [80,81] Bp 
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Volis j) =V: HV; —Vi (9-19) 
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体积 。 MU CM BARON Æ Vo G 7) 的 基础 上 ，Hopfinger 又 提出 TAA 
参量 来 作为 构 向 关系 分 析 的 变 元 。 
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LoG, j)-[VoG. 了 了) 2 
Voli, j) 

Vi 

Hopfinger 用 上 述 参 数 进行 了 DHFR 的 三 类 抑制 剂 的 QSAR 研究 ， 取 得 了 很 好 的 效 
果 L80.8! 。 利 用 QSAR 的 计算 结果 还 设计 了 6 个 化 合 物 ， 作 者 合成 了 其 中 两 个 化 合 物 ， 并 进 
行 了 活性 测定 。 活 性 的 实验 值 和 预测 值 能 够 较 好 地 吻合 ， 说 明了 分 子 形状 分 析 方 法 的 合 
理性 。 

药物 受 体 之 间 的 结合 能 力 的 强 弱 不 仅仅 取决 于 药物 分 子 和 受 体 分 子 之 间 的 几何 匹配 ， 还 
取决 于 药物 分 子 周 围 势 场 和 受 体 分 子 周 围 势 场 的 互补 性 ，Hopfinger 从 配 体 周围 势 场 的 概念 
出 发 ， 提 出 了 第 二 代 分 子 形状 参数 [831 。 分 子 周围 的 势 场 通过 计算 待 测 探 针 分 子 或 原子 和 药 
物 分 子 的 相互 作用 能 得 到 ， 相 互 作用 能 采用 下 述 的 公式 计算 

eX aTi | boni | ud (9-20) 
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AP, PC) 表示 分 子 在 空间 C 位 置 的 势 场 ; n 是 分 子 中 的 原子 数 ; ri 为 探 针 和 分 子 中 
第 i 个 原子 间 的 距离 ; acr flo cor) 是 分 别 与 探 针 以 及 原子 类 型 相关 的 参数 ; Qc MQ: 分 别 
是 探 针 和 第 ; 个 原子 的 电荷 ，s 为 介 电 常数 。 

一 般 说 来 ， 典 型 的 分 子 形状 分 析 方 法 (MSA) 计算 需 包 括 如 图 9-16 所 示 几 个 步骤 。 
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确定 其 他 分 子 特征 














建立 QSAR 模 型 


MSA 方法 的 计算 步骤 框图 











从 图 可 以 看 到 ， 首 先 应 先 产 生 建 模 分 子 的 构象 ， 然 后 ， 确 定 构象 的 活性 中 心 ， 通 过 一 定 
的 规则 ， d Ru | e uu e nn 
ERBER, TRESKA. BRIETTAT TUER. AA HEER A H [LIH e EYE i AR ORI IT 
XENON AGETUR 1E. ULÉüXEZYJCEGE VUE, 在 此 基础 上 ， 再 力争 找 出 配 体 (或 药 
W) 分 子 空间 形态 的 相似 性 和 差别 与 活性 的 关系 ， 建 立 可 以 预测 生物 活性 的 QSAR 模型 。 
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分 子 形状 分 析 MSA) 方法 认为 : 柔性 分 子 有 多 种 构象 ， 每 种 构象 可 视 为 一 种 形状 ， 
药物 的 活性 与 这 些 形状 对 受 体 的 活性 部 位 的 适应 能 力 有 关 。Koehler 等 人 就 利用 MSA 法 对 
利 什 备 原 虫 二 氧 叶 酸 还 原 酶 (DHFR)〉 抑 制剂 的 三 嗪 类 化 合 物 进行 了 三 维 定量 构 效 关系 分 
析 ， 成 功 建立 了 3D-QSAR 方程 。 值 得 指出 的 是 ，MSA 法 的 缺点 也 是 很 明显 的 : 由 于 该 法 
仅仅 只 是 在 2D-QSAR 的 基础 上 引入 了 重 妥 体积 等 参数 作为 变量 ， 而 且 这 些 参数 的 物理 意义 
并 不 是 十 分 明确 ， 所 以 ， 从 这 一 角度 说 来 ， 它 还 只 能 看 作 一 种 初级 的 3D-QSAR 研究 。 

总 的 来 讲 ，MSA 给 出 的 分 子 参数 还 是 较为 简单 和 笼统 ， 有 时 并 不 能 对 药物 分 子 之 间 在 
形状 上 存在 的 差别 给 出 细致 的 区 分 ， 同 时 ， 这 种 方法 不 能 有 效 地 显示 配 体 和 受 体 之 间 的 相互 
作用 信息 ， 因 此 这 种 方法 在 药物 设计 中 的 应 用 还 是 受到 了 较 大 的 限制 。 


三 、 比 较 分 子 场 QSAR 分 析 方 法 


1987 年 ，Cramer 发 展 了 一 个 可 称 为 3D 前 体 的 方法 ， 名 为 动态 面向 格子 点 的 分 子 模拟 
系统 (dynamic lattice-oriented molecular modeling system, DYLOMMS), ， 该 法 需 采 用 主 成 
分 分 析 (PCA) 从 分 子 相互 作 用 场 来 提取 信息 矢量 ， 继 与 生物 活性 进行 相关 分 析 [s3] 。 紧 接 
着 于 1988 ^F, Cramer 等 将 两 个 现存 的 技术 ， 即 偏 最 小 二 乘 (PLS) 与 格子 点 法 (GRID) 
结合 起 来 ， 提 出 了 比较 分 子 场 分 析 Ccomparative molecular field analysis. CoMFA) Jy 
法 [5 ， 这 种 方法 的 提出 可 以 说 是 近代 QSAR 研究 领域 中 一 个 比较 重要 的 进步 。 

在 CoMFA 提出 的 短 短 几 年 之 内 ， 它 就 迅速 地 成 为 了 在 药物 设计 中 应 用 最 为 广泛 的 3D- 
QSAR 方法 之 一 。 据 SCI 统 计 ， 从 1995 年 1 月 到 2003 年 2 月 这 段 时 间 以 CoMFA 为 关键 词 
可 以 检索 到 的 论文 超过 700 篇 ， 这 个 数字 要 远大 于 其 他 的 3D-QSAR 方法 。 目 前 ，CoMFA 
已 经 作为 SybyL 中 的 4 个 模块 之 一 实现 了 商业 化 [5 。 最 近 ，Cerius2 推出 的 MFA 
(molecular field analysis) 模块 也 采用 了 和 CoMFA 相似 的 原理 。 

可 以 说 ，CoMFA 法 是 目前 最 为 成 熟 且 应 用 最 为 广泛 的 方法 。 其 基本 思路 是 将 具有 相同 
结构 母 环 的 配 体 (或 药物 ) 分 子 在 空间 中 又 合 ， 使 其 空间 取向 尽量 一 至， 然后 用 一 个 探 针 粒 
子 在 配 体 (或 药物 ) 分 子 周围 的 空间 中 游 走 ， 计 算 探 针 粒 子 与 配 体 (或 药物 ) 分 子 之 间 的 相 
互 作用 ， 并 记录 下 空间 不 同 坐 标 中 相互 作用 的 能 量 值 ， 从 而 获得 配 体 (或 药物 ) 的 分 子 场 数 
据 。 不 同 的 探 针 粒子 可 以 探测 分 子 周 围 不 同性 质 的 分 子 场 ， 甲 烧 分 子 作 为 探 针 可 以 探测 立体 
场 ， 水 分 子 作 为 探 针 可 以 探测 玻 水 场 ， 氢 离子 作为 探 针 可 以 探测 静电 场 等 等 ， 一 些 成 熟 的 比 
较 分 子 场 程 序 可 以 提供 数 十 种 探 针 粒子 供用 户 选择 。CoMFA 方法 的 基本 原理 是 : 如 果 一 组 
相似 化 合 物 以 同样 的 方式 作用 于 同一 丢 点 ， 那 么 它们 的 生物 活性 就 取决 于 每 个 化 合 物 周围 分 
子 场 的 差别 ， 这 种 分 子 场 可 以 反映 配 体 (或 药物 ) 分 子 和 半点 之 间 非 键 相互 作用 (一般 包括 
静电 、 范 德 华 作 用 、 玻 水 和 氢 键 的 作用 ) 的 特性 。 其 计算 可 简单 分 为 三 个 步骤 : 中 首先 确定 
配 体 (或 药物 ) 分 子 的 活性 构象 ， 再 按 一 定 的 规则 〈 一 般 为 骨架 叠加 或 场 琶 加 ) 进行 药物 分 
子 的 县 合 ; @ 然 后 ， 在 县 合 好 的 配 体 (或 药物 ) 分 子 周 围 定义 一 定 的 步 长 均匀 划分 产生 格 
点 ， 在 每 个 格 点 上 用 一 个 探 针 离子 来 评价 格 点 上 的 分 子 场 特征 〈 一 般 为 静电 场 和 立体 场 ， 有 
时 也 包括 芯 水 场 和 氧 键 场 ); @ 最 后 通过 偏 最 小 二 乘 方法 建立 化 合 物 活性 和 分 子 场 特征 之 间 
的 关系 并 给 出 各 种 分 子 面 的 等 势能 面 。 

(一 ) CoMFA 计算 的 基本 过 程 

按照 CoMFA 的 基本 原理 ， 如 果 一 组 相似 的 配 体 (或 药物 ) 分 子 以 同 种 方式 作用 于 一 个 
受 体 ， 那 么 ， 这 些 化 合 物 的 生物 活性 就 取决 于 每 个 配 体 (或 药物 ) 周围 分 子 场 的 差别 ， 这 种 
分 子 场 可 以 反映 配 体 (或 药物 ) 分 子 和 受 体 之 间 非 键 相互 作用 的 特性 ，CoMFA 的 计算 可 以 
简单 地 分 为 几 个 步骤 (参见 图 9-17) 。 
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画 出 等 系数 图 











EKSPO CoMFA 的 计算 过 程 示意 图 


(1) 确定 配 体 (或 药物 ) 分 子 的 活性 构象 。 


(2) 按照 一 定 的 规则 〈 一 般 为 骨架 受 合 或 场 至 含 ) 进行 配 体 (或 药物 ) 分 子 的 手动 或 自 
动 的 麦 合 或 校准 。 主 要 是 将 具有 相同 结构 母 环 的 分 子 在 空间 中 麦 合 ， 使 其 空间 取向 尽量 


一 致 。 





O 在 全 合 好 的 分 子 周 围 定义 分 子 场 的 空间 范围 ， 可 以 采用 矩形 或 球形 的 空间 ， 把 定义 
的 空间 按照 一 定 的 步 长 〈 一 般 为 ?2A，1A=10-10m) 均匀 划分 产生 格 点 ， 在 每 个 格 点 上 采用 
一 个 探 针 离 子 来 评价 格 点 上 的 分 子 场 特征 ， 即 探 针 离子 和 配 体 (或 药物 ) 分 子 之 间 的 相互 作 




















用 能 “〈 一 般 为 静电 场 和 立体 场 ， 即 范 德 华 力 场 ， 有 时 也 包括 玻 水 场 和 氢 键 场 )， 在 CoMFA 


分 析 中 可 以 采用 不 同 的 分 子 场 势 能 函数 。 在 CoMFA 中 ， 静 电场 和 立体 场 ( 范 德 华 力 场 ) 一 





般 采 用 库仑 势 和 标准 Lennard-Jones $2 PR IUE XX . 





用 sp3 杂 化 的 C^ 离子 来 计算 ， 而 氢 键 场 则 





采用 水 分 子 探 针 来 计算 。 甲 烷 分 子 作 为 探 针 可 以 探测 立体 场 ， 水 分 子 作 为 探 针 可 以 探测 玻 水 
场 ， 氧 离子 作为 探 针 可 以 探测 静电 场 等 等 ， 一 些 成 熟 的 比较 分 子 场 程 序 可 以 提供 数 十 种 探 针 

















粒子 供用 户 选 择 。 





(4) 把 第 CD 步 计 算得 到 的 分 子 场 数值 作为 自 变 量 ， 把 分 子 的 活性 作为 因 变量 , 通过 





MEDZE PLS 方法 结合 交互 验证 来 确定 最 但 














E 主 成 分 数 ， 基 于 最 佳 主 成 分 数 ， 继 用 PLS 


回归 方法 来 建立 化 合 物 活 性 和 分 子 场 特 征 之 间 的 相关 关系 。 

















(5) 所 得 结果 是 由 PLS 的 几 个 特征 变量 来 表 
成 的 场 变 量 的 线性 组 合 。 








达 ， 这 些 特 征 变量 实质 是 原 有 格子 点 所 构 








(6) 为 加 强 可 视 化 理解 ，PLS 的 输出 是 由 一 个 在 由 每 个 格子 点 对 应 场 变量 系数 的 彩色 
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等 高 线 交 互 效应 图 ， 并 在 图 中 示 出 了 三 维 空间 中 与 生物 活性 密切 相关 的 最 佳 及 最 不 宜 结合 的 
区 域 。 
值得 指出 的 是 ， 以 上 的 每 一 步 ， 确 定 配 体 (或 药物 ) 分 子 的 活性 构象 ， 分 子 的 钱 合 或 校 
准 ; 定义 分 子 场 的 定义 及 探 针 的 设置 ，PLS 的 算法 参数 的 选择 等 ， 都 涉及 不 同 参数 和 条 件 
的 选择 。 所 以 ， 在 CoMFA 的 计算 中 ， 要 十 分 注意 根据 实际 情况 进行 各 种 参数 的 选择 [85 。 

(C) CoMFA 方法 的 改进 与 比较 分 子 相 似 性 指数 分 析 法 (CoMSIA) 

从 CoMFA 的 计算 过 程 也 可 以 看 到 ， 侯 庭 军 、 徐 筱 杰 发 现 有 多 种 因素 都 会 影响 CoMFA 
的 计算 结果 [586.87] ， 它 们 包括 : 活性 构象 的 确定 、 分 子 县 合 的 规则 、 分 子 场 势 函数 的 定义 以 
及 分 子 场 变 量 的 选 法 等 。 对 CoMFA 方法 的 运行 进行 合理 的 改进 ， 可 以 在 很 大 程度 上 提高 
CoMFA 计算 的 成 功率 。 

近年 来 ， 研 究 人 员 对 传统 的 CoMFA 进行 了 大 量 的 改进 ， 其 中 涉及 到 活性 构象 的 确定 、 
分 子 释 加 规则 、 分 子 场 势 函数 的 定义 以 及 分 子 场 变量 的 选取 等 等 ， 在 很 大 程度 上 提高 了 
CoMFA 计算 的 成 功率 。 其 中 最 具有 代表 性 的 可 能 就 是 比较 分 子 相 似 因 子 分 析 (comparative 
molecular similarity indices analysis, CoMSIA) 方法 。 

CoMSIA 方法 改变 了 探 针 粒子 与 药物 分 子 相互 作用 能 量 的 计算 公式 ， 引 入 了 高 斯 型 函 
数 ， 由 于 高 斯 型 函数 形式 是 “平稳 ”， 它 们 的 斜率 并 不 像 CoMFA 方法 中 库仑 势 和 Lennard- 
Jones 势 那么 陡峭 ， 从 而 获得 了 更 好 的 分 子 场 参数 ;由 于 选择 了 相似 探 针 ， 故 CoMSIA 方法 
将 不 限于 任 一 空间 或 静电 势 场 ， 也 包括 疏水 和 和 氧 键 〈 氧 键 受 体 和 供 体 ) 场 ， 这 样 ，CoMSIA 
方法 中 共 定 义 以 下 几 种 分 子 场 的 特征 ,包括 立 体 场 、 静 电场 、 玻 水 场 以 及 氢 键 场 〈 包 括 氧 键 
给 体 场 和 氧 键 受 体 场 ); CoMSIA 方法 可 避免 在 原子 附近 数值 的 奇异 性 以 及 分 子 表 面 附近 格 
点 处 势能 的 急剧 变化 ， 等 势 图 克服 了 CoMFA 的 不 足 ， 其 可 视 性 、 揭 示 构 效 关 系 和 对 新 化 合 
物 活 性 的 预测 均 得 到 了 改善 。CoMSIA 方法 不 但 通过 使 用 玻 水 性 探 针 从 而 引入 了 溶剂 箭 项 ， 
而 且 其 轮廓 分 析 图 还 指出 了 由 配 体 占据 的 区 域内 哪些 区 域 对 基 团 的 存在 与 特定 的 物理 化 学 性 
质 是 “喜欢 ”或 “不 喜欢 ”的 。 所 以 ,在 一 般 情 况 下 ，CoMSIA 会 得 到 更 加 满意 的 3D- 
QSAR 模型 。 

这 种 关系 所 要 求 的 性 质 和 可 能 的 配 位 体 的 形状 之 间 是 更 直接 的 导向 ， 以 证 实 当 务 之 急 活 
动 的 所 有 功能 是 否 都 存在 于 正在 考虑 的 结构 中 。 最 近 的 一 些 CoMSIA 的 应 用 包括 合成 含 确 
二 肽 作为 蛋白 酶 体 抑制 剂 [88] 、 异 羟 且 酸 衍生 物 作 为 脲酶 抑制 剂 B 站 的 预测 3D-QSAR 模型 
的 、 噬 唑 烷 -4- 酮 衍生 物 作为 抗 -HIV-1 58] 7992 和 噬 哗 烷 二 衍生 物 作为 醛 糖 还 原 酶 抑制 剂 。 
CoMSIA 由 Tripos 公司 Inc. 在 SYBYL 软件 9 提供 。 


四 、 虚 拟 受 体 方法 


虚拟 受 体 方法 (PRO 方法 是 近 几 年 来 迅速 发 展 的 一 种 3D-QSAR 方法 。 可 以 说 是 距离 
几何 3D-QSAR 和 CoMFA 方法 的 延伸 与 发 展 ， 它 的 基本 思路 就 是 采用 多 种 探 针 分 子 和 基 团 
在 配 体 (或 药物 ) 分 子 表 面 建立 一 个 虚拟 的 受 体 环 境 ， 虚 拟 受 体 和 配 体 (或 药物 ) 分 子 之 间 
相互 作用 的 差别 ， 则 反映 了 配 体 (或 药物 ) 分 子 之 间 的 活性 差别 。 这 种 方法 有 点 类 似 于 距离 
几何 3D-QSAR 方法 ,但 在 原理 上 似乎 更 为 合理 ， 操 作 也 较为 简单 ， 是 定量 构 效 关系 研究 的 
热点 之 一 。 在 此 仅 介 绍 两 种 有 代表 性 的 方法 。 

(一 ) Compass 方法 

1994 年 ，Jain 等 提出 一 种 “基于 形态 的 受 体 模型 方法 ”， 称 为 Compass FL], H 
设计 思想 包括 下 列 要 点 : 

(1) 对 训练 集中 的 每 个 分 子 采用 蒙特 卡 罗 方 法 进行 构象 分 析 ， 产 生 多 重 构 象 。 
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(2) 在 配 体 (或 药物 ) 和 受 体 的 相互 识别 中 ,不仅 配 体 (或 药物 ) 分 子 的 构象 是 十 分 重 
要 的 ， 配 体 (或 药物 ) 分 子 的 空间 取向 也 非常 重要 ， 它 把 一 个 构象 的 一 种 取向 〈 分 子 的 一 种 
空间 取向 ) 由 其 3 个 平 动 参数 和 3 个 转动 参数 决定 ， 同 时 ， 描 述 、 测 量 每 个 配 位 体 的 表面 形 
状 或 极 性 功能 在 空间 中 的 特定 点 附近 的 特定 取向 姿势 ， 并 以 此 定义 为 该 配 体 (或 药物 ) 分 子 
的 一 种 “姿态 ”(pose) 。 

(3) 先 把 一 组 配 体 (或 药物 ) 分 子 根据 某 种 药 效 团 模型 进行 初步 重 琶 后 ， 从 该 组 重 释 分 
子 的 共同 质心 出 发 ， 在 三 维 空间 中 均匀 地 安排 162 条 射线 ， 每 条 射线 在 各 配 体 〈 或 药物 ) 分 
子平 均 表 面 外 一 定 距离 处 定义 一 个 “性 质 参 考点 ”。 

(4) 每 条 射线 上 从 性 质 参考 点 到 某 配 体 (或 药物 ) 分 子 表面 处 的 距离 作为 矢量 d 的 一 
个 分 量 ， 这 个 有 162 个 分 量 的 矢量 d 就 用 来 表征 该 配 体 (或 药物 ) 分 子 的 形状 。 

(5) 使 用 结构 为 162-3-1 的 三 层 反 传人 工 神经 网 络 对 模型 进行 建 模 训练 ， 分 子 的 重新 排 
列 是 连续 进行 的 ， 以 达到 结合 位 点 与 神经 网 络 模 型 的 最 佳 配合 ， 同 时 ， 改 进 其 输入 为 表征 各 
分 子 形状 的 矢量 ， 输 出 为 该 分 子 的 生物 活性 ， 一 个 0 或 者 1 之 间 的 量 ， 即 0 代表 无 活性 ， 而 
1 代表 有 活性 。 

(6) 在 训练 模型 的 过 程 中 ， 设 计 了 对 配 体 〈 或 药物 ) 分 子 的 姿态 不 断 进 行 优化 调整 的 程 
序 ， 并 使 该 程序 和 神经 网 络 训 练 程序 交替 地 反复 运行 ， 不 断 重新 调整 姿势 分 子 ， 直 到 网 络 训 
练 收敛 。 

由 于 Jain 具体 研究 的 课题 是 香料 的 分 子 设计 ， 他 当然 特别 注重 模拟 配 体 (或 药物 ) 分 
子 的 形状 。 模 型 中 的 性 质 参 考点 的 位 置 (矢量 d 的 各 分 量 ) 随 着 每 个 配 体 (或 药物 ) 分 子 
在 该 点 处 的 形状 变化 。 但 他 建立 的 模型 并 没有 考虑 其 他 的 相互 作用 ， 这 也 是 Compass 方法 
的 不 足 之 处 。 

(二 ) 遗传 进化 受 体 模型 方法 

遗传 进化 受 体 模型 (genetically evolved receptor models, GERM) 是 在 缺少 目标 受 体 
大 分 子 晶 体 结构 或 同族 关系 - 靶 受 体 模型 结构 [2 的 条 件 下 ， 构 建 有 效 的 大 分 子 结合 位 点 的 三 
维 模型 的 一 种 三 维 构 效 关系 〈3D-QSAR) 的 研究 技术 ， 其 基本 要 求 就 是 要 得 到 一 系列 具有 
结构 活性 且 对 准 了 的 配 体 的 确定 ， 该 方法 由 封闭 的 又 加 集 原子 的 壳 分 子 构象 (类 似 于 到 原子 
在 活性 位 点 的 第 1 层 )， 而 且 ， 这 些 原 子 具 有 显 式 原子 类 型 RA, REAT, WAER 
白质 中 发 现 的 已 匹配 类 型 的 原子 ) 。 脂 族 碳 原子 均匀 地 散布 在 一 个 球体 周围 ， 并 与 训练 集 的 
配 体 对 准 ， 模 型 的 碳 原子 和 配 位 体 分子 之 间 的 位 置 不 断 被 调整 ， 以 获得 最 大 的 范 德 华 相 互 作 
用 力 。 一 旦 原子 的 位 置 被 确认 ， 它 们 就 可 以 被 任何 原子 类 型 所 占用 ， 包括 任何 原子 。 一 个 现 
实 的 问题 是 当 壳 原子 和 原子 类 型 的 数量 增加 ， 可 能 的 组 合 的 数量 上 升 很 快 ， 从 而 使 它 不 可 能 
系统 地 找到 最 佳 的 模型 。 因 此 ， 该 方法 只 有 利用 遗传 算法 来 解决 这 个 高 度 多 维 的 优化 搜索 
问题 。 

在 训练 集 的 配 体 一 次 一 个 地 与 由 遗传 算法 产生 的 受 体 活性 位 点 模型 对 接 ， 使 用 
CHARMm 分 子 力学 力 场 计算 分 子 间 的 非 键 相互 作用 能 ( 范 德 华 力 和 静电 力 )。 最 后 ， 对 这 
些 计算 出 的 相互 作用 能 量 与 分 子 的 生物 活性 进行 相关 分 析 。 此 方法 值得 肯定 的 特点 是 ， 该 模 
型 给 出 了 一 个 作为 三 维 显示 的 受 体 在 空间 中 的 属性 。 值 得 提出 的 是 ， 遗 传 进化 受 体 模型 方法 
的 限制 是 ， 它 认为 只 有 一 个 单一 构象 的 每 个 配 体 在 训练 集 ， 而 且 其 在 结合 位 点 也 是 单一 方 
向 。 由 于 这 种 方法 主要 是 基于 与 假设 的 受 体 的 相互 作用 能 的 计算 来 决定 其 生物 活性 ， 它 也 受 
到 一 定 的 限制 ， 包 括 校准 问题 。 

但 是 ， 如 果 该 组 所 有 分 子 做 的 方式 结合 改变 的 结合 位 点 不 太 多 ， 遗 传 进化 受 体 模型 还 是 
一 个 不 错 的 办 法 。 该 方法 通过 关联 计算 出 的 分 子 间 能 量 与 其 生物 活性 的 相关 关系 ， 对 一 系列 
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甜 味 剂 进行 设计 应 用 而 获得 成 功 [55] 。 而 且 ， 该 方法 具有 用 于 应 用 程序 的 筛选 三 维 结构 的 数 


据 库 ， 以 寻找 新 的 线索 ， 而 与 从 头 配 体 设 计 方 案 组 合 。 
receptor model) 方法 是 上 











遗传 进化 受 体 模型 (genetic evolved 
H Walters 等 中 提出 的 一 个 基于 原子 水 平 的 虚拟 受 体 模 型 。 在 遗传 


进化 受 体 模 型 的 实际 构建 中 ， 首 先 就 是 按照 20 个 标准 氨基 酸 中 所 出 现 的 原子 类 型 ， 确 定 了 


15 种 虚拟 的 受 体 原子 类 型 ( 见 表 9-28)， 围 绕 按 一 定 规则 又 加 好 的 训练 集 分 子 ， 在 分 子 表 面 
均匀 分 布 几 十 个 网 格 点 ， 每 个 网 格 点 上 放置 一 个 虚拟 的 受 体 原 子 。 计 算 这 些 虚拟 原子 和 配 体 
和 生物 活性 之 间 的 相关 关系 为 优化 的 目标 


分 子 之 间 的 相互 作用 能 ， 计 算得 到 的 相互 作用 能 量 
函数 ， 采 用 遗传 算法 不 断 优化 这 些 格 点 上 虚拟 原子 的 类 型 组 合 ， 


























每 一 次 都 计算 受 体 原 子 和 各 


训练 集 分 子 之 间 的 相互 作用 能 量 〈 包 括 范 德 华 能 量 和 项 电 相 互 作 用 能 量 )， 以 及 相互 作用 能 
量 和 生物 活性 之 间 的 相关 系数 ， 直 到 达到 规定 的 收敛 判 据 。 这 时 ， 相 关 性 最 好 的 一 组 原子 组 


合 就 是 所 构建 的 虚拟 受 体 作 月 























Walters 原子 类 















































日 模 型 。 也 可 采用 相关 系数 最 大 的 一 组 模型 ，GERM 中 非 键 相 
互 作 用 的 计算 采用 了 CHARMm 力 场 。 配 体 分 子 的 部 分 电荷 采 月 
方法 。 而 虚拟 原子 上 的 部 分 电荷 则 采 月 
型 定义 中 考虑 了 受 体 


月 了 半 经 验 量 子 化 学 CNDO 
HT 20 种 常见 氨基 酸 中 出 现 的 各 类 型 原子 的 平均 值 。 
口袋 有 开放 空间 的 情况 而 定义 了 “ 空 ” 原 子 类 型 。 这 15 









































种 原子 类 型 的 代码 序列 就 代表 了 一 种 原子 水 平 的 受 体 模型 。 同 时 ， 这 种 代码 序列 也 就 是 遗传 
算法 中 的 “基因 ”。 
GERM 中 采用 的 虚拟 原子 类 型 
原子 类 型 CHARMM 类 型 E ww / [ kcal/ ( mol/L) ] Rus /À 原子 部 分 电荷 
0 空 0. 0000 0. 000 0. 00 
1 H( 和 极 性 原子 相连 的 H) 一 0.0498 0. 800 0. 25 
2 HC( 和 带电 N 相连 的 H) 0. 0498 0. 600 0. 35 
3 HA( 脂 肪 H) 一 0.0450 1. 468 0. 00 
4 COE C) —0. 1410 1. 870 0. 35 
5 CHIE(CH 基 团 ) 一 0. 0486 2. 365 0. 00 
6 CH2E(CH; 基 团 ) 一 0. 1142 2.235 0. 00 
ji CH3ECCH; 基 团 ) 一 0. 1811 2. 165 0. 00 
8 CT( 脂 肪 © 一 0. 0903 800 0. 00 
9 NP( 氨 基 ND — 0. 0900 830 — 0.40 
0 NT( 胺 NN) — 0. 0900 830 —0. 30 
1 OKJ O) —0. 2000 560 —0.50 
2 OTOR Æ O) — 0. 2000 540 0. 60 
3 OCCORRE O) — 0.1591 560 —0.55 
4 S — 0. 0430 890 一 0. 20 























GERM 方法 产生 QSAR 模型 包括 下 列 步 又， 
(1) 产生 遗传 算法 优化 的 相 始 种 群 ， 个 种 群 种 包含 多 个 基因 个 体 。 一 个 个 体 用 一 个 续 性 


字符 捉 来 表示 ， 也 就 是 一 个 受 体 模 3 


的 相互 作用 


人 Ab E 


H5 SR 





ru 


TES 




















对 于 每 个 受 体 模型 ， 计 算 虚 拟 原子 和 每 一 个 配 体 分 子 
进而 计算 和 训练 集中 所 有 分 子 的 活性 的 相关 系数 。 


(2) 在 上 述 种 群 中 ， 随 机 选 出 两 个 基因 作为 父 代 ， 采 用 交叉 操作 ， 即 进行 “杂交 ”， 产 
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生 两 个 新 的 子 代 。 

(3) 用 户 选择 个 体 进 行 突变 (mutation). 操作 ， 突 变 只 发 生 在 子 代 基 因 的 个 别 代 码 ， 例 
如 某 个 子 代 的 某 个 代码 位 置 上 是 “4” (代表 的 原子 类 型 为 故 基 上 的 碳 原子 ) ， 现 随机 “ 罕 变 ” 
为 “9”( 代 表 原 子 类 型 为 酰胺 中 的 氮 原 子 ) 。 

(4) 对 每 一 个 子 代 ， 用 前 述 方法 计算 其 相关 系数 ， 如 果 一 个 子 代 的 相关 系数 足够 高 ， 就 
用 来 置换 基因 集合 中 一 个 相关 系数 低 的 成 员 ; 如 果 该 子 代 的 编码 和 原 基因 集合 中 的 某 一 成 员 
完全 相同 ， 为 保持 集合 中 遗传 上 的 多 样 性 ， 就 免 去 这 个 置换 步骤 。 

(5) 多 次 重复 上 述 步 又 (2) — (4)， 则 基因 和 集合 总 体质 量 提高 ， 直 到 其 平均 相关 系数 
变化 不 大 为 止 ， 计 算得 到 收敛 。 把 种 群 的 基因 按 相 关系 数 从 高 到 低 排 序 ， 取 前 面 一 组 ， 例 
如 ， 相 关系 数 高 的 前 100 个 基因 作为 建成 的 模型 组 。 该 方法 产生 的 是 一 组 模型 而 不 仅 是 一 个 
模型 。 这 正体 现 了 遗传 算法 的 突出 优点 ， 可 以 方便 地 进行 大 规模 的 平行 搜索 ， 且 找到 全 局 最 
低 值 的 概率 较 大 。 

4D-QSAR 方法 简介 : 1997 年 ，Hopfinger 等 提出 了 AD-QSAR 的 概念 。 作 者 首次 采用 
遗传 算法 选择 分 子 动力 学 产生 的 构象 来 产生 最 佳 的 构 效 关系 模型 。 在 这 个 方法 中 ， 作 者 用 每 
个 格 点 对 所 用 原子 的 占有 率 作为 PLS 的 变量 ， 并 根据 原子 的 不 同 特征 定义 了 七 种 不 同 种 类 
的 原子 模型 。 在 4D-QSAR 方法 中 ， 作 者 考虑 了 药物 分 子 的 整个 构象 空间 ， 而 不 是 一 个 分 
子 ， 而 且 考 察 了 多 种 原子 欠 合 方式 ， 因 此 在 概念 上 比 传统 的 CoMFA 方法 有 一 定 的 进步 。 


BIST QSAR/QSPR 中 的 建 模 方法 及 其 应 用 


化 学 构 效 关系 研究 发 展 至 今 , 已 取得 长 足 进步 。 所 以 在 2002 年 3 月， 欧洲 化 学 工业 委 
员 会 和 国际 会 议 协会 联合 组 织 的 研讨 会 上 就 有 人 提出 了 “人 类 健康 及 环境 问题 研究 中 的 
QSAR 准则 ”， 该 准则 随后 被 提交 到 经 济 合 作 与 发 展 组 织 (Organization for Economic Co- 
operation and Development，OECD)。 因 此 ，2002 年 11 月 ,在 第 34 次 化 学 品 委 员 会 与 化 
学 品 、 农 药 及 生物 技术 工作 小 组 联席 会 议 上 提出 了 对 QSAR/QSPR 模型 标准 的 制定 和 进行 
明确 评估 和 检验 的 必要 性 。 基 于 此 ，OECD 成 员 国 提出 了 建立 一 套 具 有 国际 共识 的 QSAR/ 
QSPR 的 模型 标准 以 及 评估 和 检验 模型 的 相关 规则 ， 要 求 QSAR 模型 必须 依循 以 下 准则 ， 
QSPR 模型 也 遵循 相同 准则 [9 ， 

CD 明确 的 预测 指标 (a defined endpoint) ， 是 QSAR/QSPR 建 模 的 前 提 。 

© 清楚 准确 的 算法 (an unambiguous algorithm) ， 以 保证 模型 运算 的 重 现 性 。 

(3) 明确 的 模型 应 用 域 (a defined domain of applicability)， 以 确保 模型 应 用 的 可 靠 性 。 

D 对 模型 的 拟 合 能 力 、 稳 健 性 及 预测 能 力 的 合理 评估 (appropriate measures of good- 
ness-of-fit, robustness and predictivity) 。 

C 尽 可 能 地 对 模型 进行 合理 的 解释 (a mechanistic interpretation. if possible) 。 

OECD 关于 QSAR/QSPR 模型 的 五 项 原则 ， 其 核心 目标 是 保证 QSAR/QSPR 模型 的 有 
效 性 和 可 靠 性 ; 在 更 深层 的 意义 上 ， 也 为 相关 的 法 律 法 规 的 建立 执行 提供 了 较为 严谨 的 技术 
原则 。 欧 盟 在 2007 年 6 月 1 日 起 开始 正式 实施 一 项 称 为 化 学 品 的 注册 、 评 估 、 授 权 和 限制 
的 新 法 规 (Registration，Evaluation，Authorization and restriction of Chemicals, REACH). 
该 法 规 是 一 个 涉及 化 学 品 生产 、 贸 易 、 使 用 安全 的 化 学 品 监管 体系 ， 旨 在 保护 人 类 健康 和 环 
境 安全 ， 提 高 研发 无 毒 无 害 化 合 物 的 创新 能 力 ， 增 加 化 学 品 使 用 透明 度 ， 促 进 非 动物 实验 ， 
追求 社会 可 持续 发 展 ， 等 。 基 于 以 上 的 宗旨 和 原则 ， 特别 是 关于 促进 非 动物 实验 和 可 持续 发 
展 方面 的 内 容 ， 该 法 规 人 允许 并 鼓励 在 实验 数据 不 充足 的 情况 下 采用 QSAR/QSPR 模型 对 化 
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合 物性 质 进行 预测 ， 或 者 以 QSAR/QSPR 模型 结果 作为 补充 数据 信息 ， 但 前 提 是 QSAR/ 
QSPR 模型 的 有 效 性 必须 得 到 充分 证 明 。 因 此 在 此 背景 下 ，OECD 关于 QSAR/QSPR 模型 
有 效 性 的 五 项 原则 ， 为 REACH 法 规 的 执行 提供 了 重要 的 技术 依据 ， 而 事实 上 该 项 内 容 也 
是 OECD 和 欧洲 化 学 品 管理 局 (European Chemicals Agency, ECHA) 四 年 合作 项 目的 重 
要 内 容 之 一 。 

在 OECD 关于 QSAR/QSPR 的 五 项 原则 中 ， 第 一 项 是 关于 模型 所 研究 的 对 象 应 具有 明 
确 的 预测 指标 ， 它 们 可 以 是 化 合 物 的 生物 活性 、 毒 理学 性 质 ， 可 准确 测定 化 学 性 质 或 者 药物 
在 人 体 的 吸收 率 等 。 这 项 原则 主要 针对 所 预测 活性 /性 质 所 代表 含义 的 明确 性 ， 得 到 数据 的 
实验 系统 包括 实验 操作 规范 及 实验 条 件 的 确定 性 等 。 

第 二 项 原则 是 对 模型 算法 的 透明 性 和 预测 结果 的 可 重 现 性 做 了 规范 。 模 型 算法 的 透明 性 
与 确定 性 包括 几 个 方面 的 内 容 : 四 模型 数据 集中 化 合 物 结构 、 活 性 或 性 质数 值 以 及 结构 描述 
参数 的 值 必须 明确 ; 名 对 结构 描述 参数 获得 及 计算 方法 必须 可 清晰 描述 ;，@ 对 训练 集 和 测试 
集 必须 进行 明确 描述 ， 如 果 有 异常 样本 被 去 掉 ， 也 必须 给 出 理由 ; @@ 定 量 描述 结构 参数 与 活 
性 关系 所 采用 的 统计 学 模型 算法 应 具有 透明 性 ; @@ 表 征 模 型 性 能 的 统计 学 参数 意义 必须 明 
确 ; @ 构 成 QSAR 模型 的 所 有 参数 及 其 对 应 数值 都 必须 出 处 清晰 。OECD 准则 中 关于 
QSAR/QSPR 模型 算法 的 内 涵 解 释 包 括 上 述 几 个 方面 的 内 容 ， 不仅 是 指 建立 结构 参数 与 活 
性 定量 关系 的 统计 学 方法 ， 还 包括 模型 所 采用 的 化 合 物 的 结构 及 活性 测定 值 、 结 构 参 数 的 获 
得 方法 以 及 模型 变量 的 选择 方法 。 这 是 因为 整个 QSAR/QSPR 模型 的 准确 性 和 可 靠 性 是 由 
这 几 个 方面 共同 决定 的 。 

正如 在 第 六 章 有 关 广 义 灰 色 分 析 体 系 中 讨论 的 那样 ，QSAR/QSPR 模型 是 没有 固定 的 
数学 函数 形式 的 ， 所 以 ，OECD 第 三 项 原则 规定 了 QSAR/QSPR 模型 在 应 用 时 需要 有 比较 
明确 的 应 用 域 定义 。QSAR/QSPR 模型 预测 结果 的 可 靠 性 与 模型 的 应 用 域 直 接 相 关 ， 任何 
QSAR/QSPR 模型 都 有 一 定 的 适用 范围 ， 也 就 是 所 谓 的 模型 应 用 域 。 QSAR/QSPR 模型 应 
用 域 的 重要 意义 在 于 ， 划 定 了 模型 能 够 进行 可 靠 预测 的 范围 ， 只 有 落 在 模型 应 用 域内 的 化 合 
物 才 被 认为 能 得 到 可 靠 的 预测 结果 [ss~10J] 。OECD 中 关于 QSAR/QSPR 模型 应 用 域 的 解释 
为 : 它 是 模型 的 一 个 化 学 结构 和 响应 变量 的 空间 ， 在 此 空间 内 ， 模 型 的 预测 结果 具有 一 定 的 
可 靠 性 。 模 型 应 用 域 定 义 的 准则 在 OECD 五 项 原则 中 具有 承上启下 的 作用 。 一 方面 ， 每 一 
个 QSAR/QSPR 模型 都 有 特定 的 模型 应 用 域 ， 模 型 的 应 用 域 由 模型 的 响应 对 象 、 训 练 集 分 
子 结构 、 结 构 描 述 参 数 的 生成 方法 及 模型 统计 学 习 算 法 共同 决定 ， 所 以 ，OECD 的 前 两 项 准 
则 是 模型 应 用 域 能 够 明确 定义 的 前 提 。 男 一 方面 ，OECD 关于 模型 应 用 域 的 准则 又 是 第 四 项 
准则 的 前 提 ，OECD 的 解释 文件 明确 指出 : 不 论 模 型 应 用 域 通过 何 种 具体 方式 定义 ， 模 型 拟 
合 性 、 稳 健 性 及 预测 能 力 的 评价 只 有 针对 模型 应 用 域内 的 化 合 物 进 行 统计 才 有 意义 。 也 就 是 
Wi, QSAR 模型 的 拟 合 性 、 稳 健 性 及 预测 能 力 的 评价 必须 同 模型 应 用 域 相 结 合 。 关 于 模型 
应 用 域 的 定义 准则 ，OECD 解释 文件 也 强调 对 于 给 定 的 模型 ， 模 型 应 用 域 并 不 是 预测 可 靠 
和 不 可 靠 的 绝对 界限 ， 模 型 应 用 域 的 确定 需要 在 模型 应 用 的 限定 范围 与 预测 统计 结果 可 靠 性 
之 间 进 行 权 衡 。 通 常情 况 下 ， 模 型 应 用 范围 限定 越 宽 松 ， 模 型 可 预测 的 化 合 物 越 多 ， 预 测 可 
靠 性 相应 也 越 低 。 而 如 何 进行 权衡 ， 则 根据 具体 的 QSAR 研究 需要 来 确定 。 对 QSAR 模型 
应 用 域 定义 方法 的 研究 在 近 几 年 才 逐 步 发 展 起 来 ， 目 前 还 没有 公认 的 理论 成 熟 且 应 用 效果 好 
的 应 用 域 定义 方法 ， 在 实践 中 ， 仍 需要 对 模型 应 用 域 的 定义 方法 进行 探索 研究 。 相 对 于 比较 
成 熟 和 系统 的 模型 统计 学 习 算法 ,模型 应 用 域 定义 方法 的 研究 不 论 在 理论 发 展 还 是 应 用 实践 
方面 都 有 很 大 的 完善 和 提高 空间 。OECD 提出 了 几 个 QSAR/QSPR 模型 应 用 域 的 研究 方向 : 
QO 对 模型 应 用 域 的 置信 和 度 进行 研究 ; 加 对 基于 分 子 结构 及 分 子 指纹 描述 子 类 型 的 QSAR/ 
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QSPR 模型 的 应 用 域 定义 方法 ;图 对 模型 应 用 域 定义 方法 的 优势 、 局 限 及 适用 性 进行 更 好 评 
价 的 策略 和 方法 ; @ 将 应 用 域 定义 方法 与 模型 统计 学 习 算 法 进行 有 效 整 合 ， 使 整个 计算 过 程 
自动 化 。 

OECD 第 四 项 原则 中 关于 模型 拟 合 和 稳健 性 的 估计 一 般 是 通过 模型 对 训练 集 分 子 活 性 
拟 合 效果 及 各 种 交叉 校 验 的 结果 来 进行 的 ， 但 是 ， 在 模型 的 预测 能 力 的 估计 上 还 是 存在 一 
争议 的 ， 在 很 多 QSAR/QSPR 研究 中 ， 通 过 一 个 或 少数 几 个 测试 集合 的 预测 统计 结果 来 对 
示 模 型 的 预测 能 力 ， 有 人 认为 这 存在 一 定 的 局 限 性 。 其 实 ， 这 项 原则 内 容 是 和 第 三 条 原则 的 
内 容 紧密 相关 的 ， 对 模型 预测 能 力 进行 合适 的 估计 离 不 开 模型 应 用 域 的 定义 ， 因 为 如 果 独 立 
测试 集 的 很 多 化 合 物 恰 好 位 于 模型 应 用 域 范围 内 ， 那么 该 独立 测试 集 的 预测 统计 结果 将 比较 
理想 ， 而 如 果 独 立 测试 集 的 大 部 分 化 合 物 位 于 模型 应 用 域 范 围 外 ， 则 该 独立 测试 集 的 预测 统 
计 结 果 将 比较 差 , 单纯 根据 这 样 的 独立 测试 集 的 统计 结果 的 好 坏 ， 并 不 能 严谨 反映 该 
QSAR/QSPR 模型 预测 能 力 的 高 低 ， 这 也 进一步 证 明了 OECD 原则 第 三 条 关于 确定 模型 应 
用 域 的 重要 性 。 

OECD 关于 QSAR 模型 原则 的 最 后 一 项 ， 主 要 与 模型 中 描述 化 合 物 分 子 结构 信息 的 描 
述 子 以 及 合适 的 变量 选择 方法 有 关 。 通 过 采用 一 定 的 变量 选择 方法 ， 选 出 原始 描述 子 集合 
的 一 组 重要 描述 子 ， 这 些 重 要 描述 子 相 对 其 他 描述 子 在 解释 和 预测 化 合 物 结构 与 活性 关系 起 
着 更 显著 作用 ， 而 对 这 些 重要 描述 子 的 分 析 研 究 很 大 程度 上 可 以 揭示 QSAR/QSPR 模型 的 
基础 物理 化 学 的 作用 机 理 。QSAR/QSPR 模型 的 描述 子 可 以 是 理论 计算 得 到 的 拓扑 、 儿 何 、 
电 性 等 各 种 结构 参数 或 者 是 CoMFA 和 CoMISA 等 经 典 三 维 QSAR/QSPR 模型 中 的 分 子 场 
空间 不 同 坐 标 中 相互 作用 的 能 量 值 ， 也 可 以 是 通过 各 种 分 子 碎片 定义 方法 得 到 的 分 子 指纹 碎 
片 。QSAR/QSPR 的 许多 研究 成 果 和 实践 已 经 证 明 这 些 不 同 种 类 的 描述 子 ， 通过 选用 合适 
的 建 模 方法 ,能够 较 好 地 表征 与 预测 一 些 化 合 物 的 活性 性 质 。 但 从 模型 机 理解 释 的 角度 而 
言 ， 理 论 计 算 的 结构 参数 描述 子 虽 然 在 QSAR/QSPR 研究 中 得 到 广泛 应 用 ,但 其 在 模型 机 
理解 释 方面 还 存在 物理 意义 不 够 明确 、 结 构 信 息 不 够 直观 的 缺点 。 所 以 ， 第 五 项 原则 也 只 是 
提出 尽 可 能 地 对 模型 进行 合理 的 解释 。 当 然 ， 适当 的 变量 选择 方法 也 是 找 出 模型 关键 描述 
子 ， 从 而 更 好 地 揭示 模型 机 理 的 必 不 可 少 的 环节 ， 这 也 是 近年 QSAR/QSPR 研究 中 比较 活 
跃 的 一 个 方面 。 

下 面 ， 将 对 QSAR/QSPR 中 的 建 模 方法 及 其 应 用 给 出 必要 的 介绍 ， 有 关 建 模 方 法 大 致 
分 为 两 类 ， 一 类 是 基于 回归 分 析 的 建 模 方法 ,包括 经 典 的 多 元 线性 回归 、 主 成 分 回归 、 偏 最 
小 二 乘 回归 ; 男 一 类 则 是 化 学 模式 识别 方法 ， 包括 各 种 经 典 分 类 与 判别 分 析 方 法 ， 如 距离 判 
别 法 、Bayes 判别 法 、Fisher 判别 法 即 最 近邻 法 等 。 随 着 计算 机 科学 中 机 器 学 习 方 法 的 飞速 
发 展 ， 目 前 发 展 的 既 可 用 于 回归 ， 又 可 用 于 分 类 判别 的 分 类 回归 树 、 支 持 向 量 机 、 人 工 神 经 
网 络 、 核 方法 与 模型 集成 算法 、 模 型 共识 算法 、 助 推 法 、 随 机 森林 等 ， 都 可 用 于 QSAR/ 
QSPR 中 的 建 模 ， 这 些 方法 已 在 第 六 章 、 第 七 章 作 出 了 必要 介绍 ， 所 以 ， 在 这 里 主要 对 回归 
和 模式 识别 建 模 在 QSAR/QSPR 中 的 应 用 作出 必要 讨论 。 


一 、 基 于 回归 分 析 的 建 模 方法 及 其 应 用 


由 前 述 方法 得 到 分 子 结构 的 数量 描述 指标 后 ， 一 个 最 直接 的 方法 就 是 用 回归 方程 将 这 些 
分 子 结构 的 数量 描述 指标 与 化 合 物 的 某 种 性 质 联系 起 来 ， 然 后 用 最 小 二 乘 的 方法 得 到 相应 的 
回归 参数 (ais Qg, tts ay ) D 即 
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可 以 说 目前 很 多 构 效 定量 关系 的 研究 都 基于 此 。 下 面 将 简要 地 介绍 这 方面 的 一 些 具 体 
应 用 。 

1. 分 子 连 接 性 指数 与 立体 参数 间 的 关系 
由 Taft 提出 的 取代 基 立 体 效 应 参数 EE, 值 是 一 个 经 验 值 ， 不 少 基 团 的 上 , 值 用 类 比 法 还 
难以 得 到 ， 所 以 使 用 受到 严重 限制 。 对 已 知 Es 值 的 18 个 脂肪 酯 类 烃基 部 分 ， 用 分 子 连接 
性 指数 可 以 与 已、 值 建立 如 下 相关 关系 方程 式 [1021 : 


E, — —0. 544? y— 1. 40? y+ 1. 09t y+ 0. 403 


其 复 相 关系 数 尺 =0. 961. nal 应 中 心 ( 如 酯 基 ) 周围 的 基 团 由 于 立体 效 

ij 影响 反应 速度 。 因 此 用 ?x plis et 种 聚集 现象 ， 即 反映 与 反应 中 心 相连 
ee Ra 

2. 分 子 连 接 性 指数 与 胸腺 喀 喧 磷酸 酯 酶 抑制 剂 活性 关系 

11 个 Ni 位 烃基 和 芳烃 基 取 代 的 胸腺 喀 喧 衍生 物 (参见 表 9-29) 的 活性 与 1 x 的 QSAR 
方程 式 如 下 : 















































lgC1/c) —0. 366! y— 3. 364 
其 复 相 关系 数 为 0. 920。 式 中 ,cc 为 物质 的 量 浓度 。 
胸腺 喀 啶 磷酸 酯 酶 抑制 剂 'X 值 和 活性 值 
























































(0) Y a 
HN a 
A 5 E 
o ^N 
| 观测 值 计算 值 
R 
甲 基 3. 698 — 2. 30 —2.01 
丁 基 5. 236 —].35 一 1. 44 
AE 5. 592 — 1. 30 —1.31 
环 戊 基 5. 270 一 1. 28 —]. 43 
环 己基 6. 092 一 17 =1.13 
JX d 5. 736 =1.15 —1. 26 
3-4 W 7. 254 —iH.11 —0. 71 
2-4 TNI 6. 754 — 0. 80 — 0. 89 
某 甲 基 6. 254 —0. 76 —1.07 
4A-K T 7. 754 — 0. 60 —0. 52 
5- 葵 戊 基 8. 254 一 0.32 —0. 34 

















3. 分 子 连 接 性 指数 与 2- 咪 唑 烧 酮 类 衍生 物 的 活性 关系 
2- 咪 唑 烷 酮 类 衍生 物 为 中 区 神经 系统 抑制 剂 。 相 秉 仁 0034 用 分 子 连 接 性 指数 与 lg(1/c) 
对 21 个 化 合 物 建立 QSAR 方程 式 ， 获 得 显著 效果 。 


lg(1/c) —0. 2455 !X * — 6.3933 5X ğer — 13. 1189 9X čyr + 3. 4448 





























RP, 5X OU PEPIUGERR 2 RA — 1 CUL IO e Cr FII AR TUE S C 
为 含有 哌 啶 环 和 吗 啉 环 边 链 的 化 合 物 的 末端 6 原子 回路 项 。 应 用 分 子 连接 性 指数 计算 所 得 结 
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果 见 表 9-30, 

从 表 9-30 中 可 以 看 出 ， 分 子 中 含有 二 甲 胺 基 侧 链 的 使 活性 降低 “〈 氯 丙 嗪 例外 ， 因 母 核 
结构 不 同 ， 不 宜 类 推 )。 这 从 QSAR 方程 式 中 可 以 定量 反映 出 来 ， 路 径 / 簇 项 值 ; ypcr 的 系数 
是 负 值 ， 表 示 它 使 母体 活性 降低 ， 一 般 要 降低 0. 64 对 数 单位 值 (化 合 物 9 一 15) 和 1.01 对 
数 单位 值 (化 合 物 16 与 17) 。 

含有 六 元 哌 啶 环 与 吗 啉 环 也 使 活性 降低 ， 方 程式 中 5 x cyt 项 的 系数 亦 为 负数 ， 提 示 这 两 
种 六 元 环 基 团 对 活性 呈 负 变 影响 。 一 般 要 降低 1.03 对 数 单位 值 (化合物 18 与 19) 和 
0. 59 对 数 单位 值 (化 合 物 20)。 这 可 能 是 六 元 环 立 体 障 碍 较 大 而 妨碍 分 子 与 受 体 的 


LLI 
EO. 


分 子 连 接 性 指数 与 咪唑 烷 酮 类 衍生 物 的 中 枢 抑制 活性 QSAR 方程 式 的 计算 结果 


RX(CH;),—N S—4 ) 
So | 






































R 
14,9 
i= Io 1 
编号 R? n R! x 5 X vcr 5 X cyr s(x ) Ei | Ate | 
实验 计算 
[N 
1 N— 2 Br 8. 0864 0. 0000 0. 0000 5.63 5. 43 0. 20 
| 
N 
2 N= 2 Cl 7. 6958 0. 0000 0. 0000 5.47 5. 33 0. 14 
L% 
3 N— 2 H 7.1788 0. 0000 0. 0000 5.01 5.20 0. 19 
L 
CHCH、 
4 N— 2 Br 7.9993 0. 0000 0. 0000 5.42 5.41 0. 01 
CH3CH, 
CHsCH;、 
5 ee 2 Cl 7. 6081 0. 0000 0. 0000 5.33 5.31 0. 02 
CH,CH. 
CH;CH, ~、 
6 NT 2 C 7. 0345 0. 0000 0. 0000 5.37 5.19 0. 18 
CH; 
CHsCH, ~、 
7 N= 2 H 6. 5208 0. 0000 0. 0000 5.09 0. 05 0. 04 
CH; 
CEHCH、 
8 NT 2 Br 7. 4222 0. 0000 0. 0000 5. 13 5. 27 0. 14 
CH; 
CH. 
9 -NT 2 Cl 6. 4671 0. 1000 0. 0000 5. 03 4. 39 0. 6: 
CH, 
CH;、 
10 J 2 Br 6. 8584 0. 1000 0. 0000 4.89 4.49 0. 40 
CH. 
3 
CH; 
11 ZN— 2 SCH; 7. 3993 0. 1000 0. 0000 4.67 4.62 0. 05 
CH, 
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续 表 
1\2 
lg| — | 1 
编号 R? n R! X 5 X per * Xeyr e(z ) RS Ac | 
实验 计算 
cE、 
2 -NT 2 OCH; 6. 4683 0. 1000 0. 0000 4.64 4. 39 0.25 
CH; 
CH; ~、 
13 NT 2 CH, 6. 3560 0. 1000 0. 0000 4. 44 4. 37 0.07 
CH, 
CH; ~、 
4 _N 一 2 OH 6.0769 0. 1000 0. 0000 4. 05 4. 30 0. 25 
CH; 
Bs 
15 -一 2 H 5. 9430 0. 1000 0. 0000 3.84 4. 26 0. 42 
CH 一 
CH; ~ 
16 ZN 3 Br 7.3502 0. 1581 0. 0000 4.12 4. 23 0. 11 
CH; 
cH、 
7 NN 9 CI 6. 9601 0. 1581 0. 000 3. 80 4. 14 0. 34 
CH; 
18 《 Im 2 CI 8.1955 0. 0000 0. 07905 4. 88 4. 42 0. 46 
9 ( = 2 H 7.6791 0. 0000 0. 07905 4..23 4. 29 0. 06 
20 O N— 2 Cl 7.17128 0. 000 0. 0456 4.07 4. 75 0. 68 
7 
S. 
CN 
21 N CI 8.1706 0. 0000 0. 0000 5. 20 5, 45 0. 25 
| 
CH,CH;CH;N(CH;), 
O 用 一 种 光电 活动 记录 仪 测 量 小 鼠 自 发 活动 减低 50% 作 为 活性 指标 ; c 为 受 试 物 的 浓度 ， 单 位 为 mol/L。 























4. 分 子 连接 性 指数 与 化 合 物 其 他 的 理化 性 质 的 关系 研究 

化 合 物 分 子 的 理化 性 质 不 仅 取 决 于 分 子 和 原子 的 数目 (加 合 性 )， 而 且 还 取决 于 原子 在 
分 子 中 的 排列 (构成 性 )。 而 分 子 连接 性 指数 可 以 把 分 子 的 加 合 性 和 构成 性 的 结构 信息 都 译 
HHR, Kier, Hall, Murray 等 深入 研究 了 分 子 连接 性 指数 ， 认 为 其 和 分 子 寿 干 的 物理 性 
质 有 显著 相关 性 。 例 如 ， 原 子 离 解 热 和 生成 热 、 摩 尔 折射 率 、 分 子 极 化 度 、 气 体 方程 经 验 常 
数 、 气 化 热 、 沸 点 、 液 体 的 密度 、 有 机 液体 的 水 溶性 、 分 配 系 数 等 十 余 种 物理 性 质 观察 值 和 
用 分 子 连接 性 指数 与 之 建立 的 方程 式 而 计算 出 来 的 数值 几乎 完全 一 致 ， 有 兴趣 的 读者 可 参阅 
文献 [104], 

分 子 连 接 性 法 是 1975 年 才 提 出 来 的 ， 虽 在 不 断 发 展 中 克服 了 不 少 问题 ， 例 如 ， 初 步 解 
决 了 杂 原 子 的 点 价 等 问题 ， 但 还 有 很 多 不 足 之 人 处。 例如 指数 的 种 类 太 多 ,物理 意义 不 明确 ; 
指数 值 对 几何 异 构 体 无 法 区 别 ， 所 以 顺 反 式 的 x 值 是 等 同 的 ;， 对 化 合 物 的 构象 也 无 法 区 别 。 
另外 ， 对 磷 、 硼 等 元 素 在 共 价 键 中 的 Oo 值 尚未 规定 出 来 。 所 以 这 些 还 有 待 于 进一步 发 展 、 改 
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进 和 完善 。 

5. 不 同 固定 相 上 香料 化 合 物 QSPR 模型 的 比较 研究 

香料 化 合 物 是 形成 嗅觉 空间 的 物质 基础 ， 一 般 情况 下 ， 约 1000 种 化 合 物 就 能 构成 人 类 
的 整个 嗅觉 空间 。 因 此 ， 对 香料 化 合 物 的 分 离 鉴 定 是 研究 香料 化 学 和 探索 嗅觉 之 谜 的 基础 。 
由 于 化 合 物 结构 的 差异 会 导致 色谱 保留 能 力 的 不 同 ， 因 此 分 析 化 学 家 提出 利用 保留 指数 进行 
辅助 定性 ， 保 留 指数 结合 质谱 匹配 能 有 效 地 提高 化 合 物 定 性 的 准确 性 。 最 经 典 的 保留 指数 是 
1958 年 Kovats 提出 的 恒温 保留 指数 ， 也 是 QSPR 研究 的 主要 对 象 之 一 [05 。 目前， 香料 化 
合 物 的 QSPR 研究 已 有 部 分 报道 ， 但 是 其 研究 的 化 合 物 一 般 数量 较 少 ， 大 多 在 20 一 300 个 之 
间 。 此 外 ， 已 有 的 QSPR 报道 往往 都 是 针对 某 一 特定 类 别 的 化 合 物 在 特定 类 型 的 固定 相 上 
来 建立 模型 ， 这 样 使 得 模型 的 泛 化 能 力 受 到 限制 。 同 时 ， 小 规模 的 香料 化 合 物 保留 指数 数 
据 、 单 一 化 的 结构 及 固定 相 特 征 ， 无 助 于 实现 保留 指数 标准 化 。 

因此 ， 为 了 更 加 全 面 深 入 地 人 研究 香料 化 合 物 的 定量 结构 保留 关系 ， 我 们 选择 了 近 700 种 
香料 化 合 物 在 4 根 不 同色 谱 柱 上 的 保留 指数 为 研究 对 象 ， 旨 在 建立 数据 规模 更 大 、 结 构 多 样 
性 更 高 、 固 定 相 特征 更 丰富 的 香料 化 合 物 定量 结构 保留 关系 模型 。 同 时 ， 本 工作 的 男 一 个 目 
标 是 通过 对 4 种 不 同 极 性 固定 相 上 的 QSPR 模型 的 比较 研究 ， 揭 示 “ 分 子 结构 一 描述 符 一 固 
定 相 ”三 者 之 间 的 关系 ， 为 进一步 进行 保留 指数 标准 化 研究 奠定 基础 。 

本 工作 用 于 建 模 的 保留 指数 数据 收集 自 经 典 的 保留 指数 网 络 数据 库 1%] R 9-31), 合 
计 有 738 个 香料 化 合 物 在 4 根 不 同 极 性 的 色谱 柱 上 ， 分别 为 非 极 性 固定 相 OV101、 弱 极 性 
固定 相 DB5、 中 极 性 固定 相 OV17 和 极 性 固定 相 C20M。 数 据 库 中 的 部 分 数据 由 于 是 估计 所 
得 或 在 对 应 的 固定 相 上 和 缺失 数据 ， 为 保证 数据 的 准确 性 ， 此 类 数据 未 纳入 模型 。 最 后 ， 固 定 
相 OV101 上 有 297 个 数据 ，DB5 上 有 405 个 数据 ，OV17 上 有 205 个 数据 ，C20M 上 有 434 
个 数据 ， 其 中 4 个 固定 相 共 有 的 数据 有 107 个 。 本 工作 所 研究 的 香料 化 合 物 对 象 涵盖 了 栈 
类 、 醚 类 、 醛 类 、 醇 类 、 酮 类 、 有 机 酸 类 等 绝 大 部 分 香料 化 合 物 类 型 ， 涉 及 到 包括 果 香 、 木 
香 、 花 香 、 奶 香 、 坚 果 香 、 融 香 等 约 20 种 主要 的 香气 类 型 ， 具 有 足够 的 化 学 结构 多 样 性 和 
气味 特征 多 样 性 。 统 计 结 果 显 示 ， 数 据 集中 的 化 合 物 碳 原子 个 数 为 1 一 23， 氢 原子 个 数 为 
3 一 48， 环 结构 个 数 为 0 一 5， 分 子 质量 为 40. 02 一 276. 25, 


用 于 QSPR 建 模 的 描述 符 信息 



























































































































































序号 描述 符 化 学 意义 描述 符 类 型 

1 MW 分 子 量 组 成 
ndonr A& BE A5 c fh 2C H 组 成 

3 ipc 邻接 拓扑 结构 

4 p: MEETA 4 的 简单 分 子 连 接 性 xX 指数 拓扑 结构 

5 1x 1 阶 路 径 的 简单 分 子 连接 性 X 指数 拓扑 结构 

6 ex 路 径 为 0 的 简单 分 子 连 接 性 X 指数 拓扑 结构 

7 qhmax 大 部 分 正 电荷 在 H 上 量子 化 学 

8 Hu f AB 量子 化 学 

9 DPSA1 Difference between partial positively and negatively charged surface areas CPSA 描述 子 

10 FPSA1 Fractional partial positive surface area( 表 面积 ) CPSA 描述 子 











四 个 色谱 柱 上 的 样本 均 被 随机 分 为 训练 集 和 测试 集 两 部 分 ， 分 别 占 样本 总 数 的 3/4 和 
1/4， 其 中 训练 集中 的 样本 被 用 于 建 模 ， 测 试 集中 的 样本 不 参与 建 模 ， 仅 用 于 评价 模型 的 预 
测 能 力 。 因 此 ， 数 据 辟 分 后 ， 四 个 色谱 柱 上 的 训练 集 和 测试 集 样本 个 数 分 别 为 230 和 67 
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(OV101)、305 和 100 (DB5)、165 和 40 (OV17)、330 和 104 (C20M), 

















本 工作 采用 多 元 线性 回归 技术 关联 分 子 描述 符 和 保留 指数 ， 因 多 元 线性 回归 具有 模型 简 
单 、 易 解释 的 优点 ， 能 通过 对 回归 方程 的 分 析 清 晰 地 揭示 分 子 结构 与 保留 机 制 之 间 的 关系 。 
为 保证 模型 的 稳健 性 ， 建 模 过 程 中 对 模型 进行 了 交互 检验 ， 并 通过 独立 测试 集 对 模型 性 能 进 
行 评 佑 。 模 型 通过 拟 合 回 归 系 数 R?、 交 互 检验 回归 系数 Q?、 预 测 回归 系数 Rs 以 及 均 方 根 



































差 RMSE 等 统计 参数 对 其 性 能 进行 评价 。 见 表 9-32、 表 9-33. 
QSPR 模型 回归 方程 























固定 相 回归 方程 描述 符 
I 二 1166. 2 一 267.0( 士 24.2)0X 十 347.9( 士 25.4)1X 十 36.2( 士 3.7)7zcdonmr 十 
| ES MW ,ndonr , X "X 
1—1150.6—269. 2C +19. 10? X + 420. 5( 3: 20. 7)! X -- 48. 0C 3. 22 ndonr + 
DB5 155 Nae MW $ (2) 2 a$ £ ondon MW .ndonr .! X.?X 
OV17 1—1230. 0 十 49. 0( 士 7. 2)DPSA1— 75. 2(+ 4. DDFPSA1-- 57. 7( 3 12. 6)gh- ipc ,pr ,qhmaz, DP- 
maz-- 67. 3(3-9. 624-289. 2( 士 8. 2)ipc (3) SA1,FPSA1 
C20M i—1558.6— 154. 6 (+8. 2 FPSA1 +126. 8C E 12. 7) qhmax 4- 71. 2( 3: 5. 5) ipc , ndonr , qhmazx , 
4 —53. 23:5. 4)* X. 3-57. 2C 3:12. 9) ndonr +393. 7 (55. 7) i pc (4) B FPSA1,.*X, 
EREE QSPR 模型 统计 参数 表 
色谱 柱 | 描述 子 R? RMSEF Q? RMSE « Rex RMSE wesi 
OV101 MW .,!X,°X,ndonr 0. 9605 59.61 0. 9595 60. 30 0. 9585 58. 02 
DB5 MW ,! X ,?X .ndonr 0. 9532 61.05 0. 9528 61. 33 0. 9501 65. 68 
ipc , y, DPSA1, FPSA1, - - PEE 国 E 
OV17 0. 9607 57.63 0. 9595 58. 55 0. 9581 54. 33 
ndonr . qh max 
s ipc ndonr,FPSA1, - A» 
C20M 0. 9228 104. 24 0. 9223 104. 58 0. 9255 105. 48 
pi! Xc .qhmax 














6. QSPR 模型 中 的 描述 符 分 析 


















































由 于 训练 集中 样本 的 变化 会 引起 描述 符 选 择 的 不 同 ， 同 一 描述 符 在 模型 中 的 重要 性 也 会 





随 着 数据 的 变化 而 发 生 改 变 ， 不 利于 对 不 同 的 QSPR 模型 中 的 描述 符 做 平行 的 比较 。 因 此 ， 
本 工作 在 四 个 不 同 的 固定 相 上 收集 了 共有 的 107 个 化 合 物 ， 对 107 个 化 合 物 分 别 建 模 ， 消 除 
了 样本 差异 带 来 的 影响 ， 有 利于 研究 不 同 的 固定 相 上 的 QSPR 模型 中 描述 符 的 差异 。 建 模 
过 程 及 模型 评价 方法 如 前 所 述 ， 其 结果 见 表 9-34， 由 表 9-34 可 见 ，4 个 QSPR 模型 均 是 可 





























靠 稳 健 的 。 测 试 集中 实验 值 与 预测 值 对 照 图 见 图 9-18. 
不 同 固定 相 上 107 个 化 合 物 的 QSPR 模型 




















固定 相 R? RMSEF Q? RMSE « 
OV101 0. 9718 56. 2714 0. 9587 68. 1360 

DB5 0. 9741 54. 0304 0. 9619 65. 5337 
OV17 0. 9597 67. 6811 0. 9464 78. 0032 
C20M 0. 9309 105. 7966 0. 9084 121. 8397 























为 了 表征 描述 符 在 不 同 的 QSPR 模型 中 的 重要 性 ， 本 工作 中 计算 了 描述 符 在 模型 里 的 














两 个 统计 量 L19"] ， 相 对 贡献 值 (y.) 和 部 分 贡献 值 (yr)， 计 算 方 法 如 下 : 





预测 值 
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OV101 DB5 
2500; 
2000. 
ami 
Š 1500L 
E 
1000} 
500| Ae 
500 1000 1500 2000 2500 500 1000 1500 2000 2500 
实验 值 实验 值 
OV17 C20M 
3000F 
2500- 
过 2000F 
E 
&É 1500- 
1000} 
500} 

L L L L J B o L L L L J 
500 1000 1500 2000 2500 500 1000 1500 2000 2500 3000 
实验 值 实验 值 

IEEE 测 试 集中 实验 值 与 预测 值 对 照 图 
(s: 训练 集中 的 样本 ; o: 测试 集中 的 样本 ) 
rG) —aiXi (9-22a) 
2 | pCi) | 
. r i 
pG) = us X 100% (9-22b) 


$us GO | 


式 中 ，a; 和 X; 是 QSPR 模型 中 第 ;个 描述 符 的 相关 系数 和 平均 值 ; 一 是 模型 回归 系数 。 





表 9-35 




















由 式 (9-22a), IÈ 〈9-22b) 计算 得 到 的 描述 符 重要 性 指标 见 表 9-35。 
不 同 QSPR 模型 上 描述 符 的 重要 性 评价 



































固定 相 FPSA1 qhmax u ndonr oy: 1% MW ipc X DPSA1 
GOV101 0.0175 0. 0091 0. 0357 0. 0248 0. 2035 0. 4363 0. 1405 0. 0928 0. 0070 0. 0045 

DB5 0. 0074 0. 0248 0. 0459 0. 0120 0. 2317 0. 4025 0. 1862 0. 0626 0. 0008 0. 0001 
OV17 0. 0210 0.0617 0. 0712 0. 0006 0. 2422 0. 3720 0. 1685 0. 0183 0. 0021 0. 0021 
C20M 0. 0363 0. 1122 0. 0576 0. 0027 0. 2145 0. 2498 0. 1258 0. 0718 0. 0042 0. 0560 
average 0. 0205 0. 0519 0. 0526 0. 0100 0. 2230 0. 3651 0. 1553 0. 0614 0. 0035 0. 0157 








由 表 9-35 可 见 ， 在 不 同 的 固定 相 上 ，QSPR 模型 中 的 描述 符 部 分 贡献 值 差 异 很 大 。 例 


如 ， 描 述 符 ghmax 的 部 分 贡献 值 在 OV101 模型 上 为 0.0091， 在 C20M 模型 上 则 为 0. 1122, 











此 外 ， 对 于 所 有 的 








E} 








固定 相 而 言 ， 描 述 符 "X ,1X 和 MW 对 保留 指数 均 起 最 主要 的 影响 ， 其 在 4 


个 国定 相 上 部 分 贡献 值 的 平均 值 分 别 为 0.2230，0. 3651 和 0.1553， 远 大 于 其 他 的 描述 符 。 
这 说 明 ， 对 于 不 同 极 性 的 固定 相 ， 对 色谱 保留 起 主导 作用 的 是 色散 力 、 诱 导 力 和 位 阻 效应 ， 
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687 | 


因为 描述 符 "X,1X 和 MW 对 应 的 正 是 表征 这 些 作 用 力 的 分 子 结 构 信 息 ， 且 都 与 保留 指数 成 


正 相 关 性 。 而 描述 符 pc 的 部 分 贡献 值 相对 较 小 ， 其 原因 在 于 %X,'X 和 MW 所 表 和 


结构 信息 与 其 相似 。 

另 一 方面 ， 描 述 符 FPSAl. qhmax. p 和 DPSA1 在 QSPR 模型 中 部 分 贡献 值 的 平均 
值 较 小 ， 分 别 为 0.0205、0.0519、0.0526 和 0.0157。 这 是 因为 在 色谱 保留 过 程 中 ,溶质 分 
子 与 固定 相 的 相互 作用 不 仅 是 色散 力 、 诱 导 力 和 位 阻 效应 等 ， 通 过 偶 极 - 偶 极 相互 作用 的 分 





子 间 取向 力也 发 挥 作用 ， 在 极 性 固定 相 上 尤其 显著 。 上 


DB5, 


献 值 也 随 之 增 大 。 其 中 ，FPSA1 由 0.0175 增 大 至 0.0363. qhmax H 
0.1122, jy 由 0.0357 增 大 至 0.0576, DPSAI 由 0.0045 增 大 至 0.0560。 其 原因 在 于 随 着 

































































E 的 分 子 


K 9-34 可 见 ， 对 于 固定 相 OV101、 


OV17 和 C20M， 随 着 极 性 的 增强 ， 描 述 符 FPSAl. qhmax, p 和 DPSA1 的 部 分 贡 























H 0.0091 JE X 
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定 相 极 性 的 增 大 ， 偶 极 - 偶 极 相互 作用 的 分 子 间 取 向 力 在 色谱 保留 过 程 中 的 影响 逐渐 增 大 ， 
EF 分子 间 取 向 力 的 描述 符 在 模型 中 的 重要 性 也 随 之 增强 。 男 一 方面 ， 主 要 表征 色 
散 力 、 诱 导 力 及 位 阻 效 应 的 描述 符 "X、1X、MW 和 ipc 虽然 在 总 体 上 依然 保持 着 影响 保留 过 
程 的 主导 地 位 ,但 是 ， 随 着 固定 相 极 性 的 增强 ， 这 些 描述 符 在 模型 中 的 相对 重要 性 也 是 呈 减 
小 趋势 的 。 


因此 用 于 表 和 


最 后 ， 描 述 符 ndonr 和 
的 变化 趋势 也 不 明显 。 但 是 ， 
变量 ， 模 型 的 性 能 明显 降低 。 其 原因 在 于 ndonr fü X. r3 fi 
复杂 性 对 大 多 数 的 分 子 都 是 常数 ， 


极 性 改变 上 


t. pid 



































x 在 模型 中 的 贡献 都 很 小 ， 分 别 为 0.0100 和 0. 0035, 
在 变量 选择 过 程 中 发 现 ， 如 果 从 变量 集中 














且 随 着 
删除 这 两 个 


FE 的 氧 键 受 体 数目 以 及 分 子 结构 





只 对 一 小 部 分 分 子 起 区 分 作 上 月 
0， 杂 原子 个 数 多 的 分 子 和 分 子 结构 很 复杂 的 分 子 中 ，ndonr 和 4X. 将 起 重要 作用 。 

















， 可 认为 是 模型 的 局 部 变 


在 此 ， 特 将 香料 化 合 物 在 不 同 固定 相 上 的 保留 指数 由 表 9-36 给 出 ， 如 读者 对 此 感 兴趣 ， 


















































可 直接 使 用 这 些 数据 。 
香料 化 合 物 在 不 同 固定 相 上 的 保留 指数 
CAS 化 学 名 称 HP-1 HP5-MS DB-225MS 
000102-20-5 葵 乙 酸 葵 乙 酯 865 1922 2709 
000112-14-1 乙酸 辛 酯 193 210 1440 
000141-78-6 乙酸 乙 酯 = = 819 
000093-18-5 8- 蔡 乙醚 489 1528 2100 
000102-13-6 ALBERI 360 392 829 
001504-74-1 邻 甲 氧 基 肉桂 醛 480 1533 2333 
000106-32-1 辛酸 乙 酯 79 196 1410 
000097-62-1 异 丁 酸 乙醚 744 757 934 
000695-06-7 7- 已 内 酯 005 054 710 
000112-31-2 XE 183 1205 494 
000488-10-8 茉莉 酮 364 401 1938 
000110-19-0 乙酸 异 丁 酯 757 773 970 
002721-22-4 9- 十 四 内 酯 1874 926 2753 
000123-69-3 (2Z)- 氧 代 环 十 七 碳 -8- 烯 -2- 酮 901 1938 2462 
000556-82-1 3- 甲 基 -2- 丁 烯 -1- 醇 758 776 1113 
000106-29-6 丁 酸 香 叶 酯 536 1560 1854 
005471-51-2 T a T B 498 553 2675 
000104-54-1 肉桂 醇 268 306 1999 
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B 
CAS 1L 3e HP-1 HP5-MS DB-225MS 
000556-24-1 Ar RA FR DR 761 777 970 
000491-02-1 薄荷 醇 1155 1174 1512 
000093-15-2 HETE 1368 1405 1890 
000628-97-7 标 榈 酸 乙 酯 1975 1993 2246 
000620-02-0 5- EF At cm E 928 963 1451 
000698-76-0 丁 位 辛 内 酶 1235 1287 2024 
000105-54-4 丁 酸 乙 酯 787 804 一 
000103-38-8 t JL R2 AE Hn RR 1364 1396 1816 
060784-31-8 CZ)-2-F Jis RE 1134 1159 1520 
000105-68-0 WIRE RH 952 968 1168 
000106-27-4 TB E IR 1039 1055 1255 
000103-45-7 乙酸 葵 乙 酯 1223 1258 1712 
000103-28-6 5T BER 1268 1298 1702 
000101-84-8 ZÆ 1369 1404 1863 
000106-33-2 月 桂 酸 乙 酯 1576 1593 1827 
000122-97-4 3- 葵 丙 醇 1198 1233 1824 
000112-44-7 十 一 醛 1285 1306 1575 
000536-59-4 紫 苏 醇 1274 1301 1791 
000093-08-3 2- 蔡 乙 酮 1568 1620 2440 
000122-69-0 肉桂 酸 肉桂 酯 2347 2416 一 
000140-39-6 乙酸 对 甲 酚 酯 1138 1170 1590 
000104-21-2 LRA FH CBE DR 1377 1421 2004 
007452-79-1 2- 甲 基 丁 酸 乙 酯 835 849 1028 
000111-13-7 2- 辛 酮 969 991 1275 
000710-04-3 9- 十 一 内 酯 1555 1607 2396 
000110-45-2 甲酸 异 戊 酯 774 792 1006 
006728-26-3 CE)-2-0 A BE 827 852 1187 
000077-53-2 柏木 脑 1583 1611 2072 
000123-68-2 e AS VS BR 1061 1079 1318 
002035-99-6 辛酸 3- 甲 基 丁 酯 1428 1445 1641 
000065-85-0 AH RR 1155 1178 = 
000103-52-6 TRAEZH 1408 1443 1896 
000109-21-7 丁 酸 丁 酯 979 995 1199 
000119-61-9 ZA H f 1583 1635 2372 
000821-55-6 2--E f] 1070 1091 1383 
000109-15-9 异 丁 酸 辛 酯 1329 1344 1531 
000108-64-5 FRR ZR 838 852 1038 
000120-57-0 胡椒 醛 1286 1336 2043 
000077-93-0 柠檬 酸 三 乙 酯 1618 1664 2369 
000623-17-6 乙酸 糠 酯 964 995 1368 
000104-57-4 H RR DS 1045 1078 1520 
000124-07-2 辛酸 1164 1179 1652 
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CAS 化 学 名 称 HP-1 HP5-MS DB-225MS 
002244-16-8 右 旋 香 芹 酮 1212 1246 1701 
000093-04-9 2- 茶 甲 醚 1415 1455 2051 
031502-14-4 反 -2- 王 烯 -1- 醇 1150 1168 1517 
000503-74-2 FR 839 850 1286 
000100-52-7 ART E 929 961 1399 
000928-95-0 CE)-2-C 4-1-07 848 865 1202 
000102-76-1 三 乙酸 甘油 酯 1309 1352 1957 
000118-61-6 水 杨 酸 乙 酯 1243 273 1697 
000112-06-1 乙酸 庚 酯 1094 1111 1335 
000093-04-9 2-2x WI ik 1414 454 2050 
000140-27-2 5 RETE BR 1648 1686 2226 
000821-55-6 2- Bj 1070 091 1383 
000706-14-9 Y-3 Vy its 1422 1471 2198 
006728-26-3 青 叶 醛 827 852 1187 
007493-72-3 TRIEN Ha 1358 1377 1593 
007779-65-9 ER Fr XL PR 1705 1745 2304 
000123-92-2 乙酸 异 戊 酯 859 876 1081 
000112-30-1 1-X qui 1254 1271 1577 
000089-74-7 2,4- 二 甲 基 葵 乙 酮 1220 253 1719 
000823-22-3 0- 已 内 酯 1041 1095 1818 
000103-37-7 TRA P fi 1313 347 1783 
000544-12-7 3- 己 烯 -1- 醇 838 855 1193 
002497-18-9 CE)-Z, We-2- C. s -1- BERG 995 015 1261 
015356-70-4 DL-18 for B. 1155 1174 1512 
000110-40-7 类 二 酸 二 乙醚 1751 787 2293 
000087-19-4 水 杨 酸 异 丁 酯 1444 1475 1920 
000111-27-3 正己 醇 852 867 1179 
000698-10-2 3-X& d&-A- HH dk-5- 7, 3E-2 (5 HO -0k Ili Bd 1158 1195 1974 
000124-06-1 十 四 酸 乙 酯 775 792 2036 
000105-13-5 4- 甲 氧 基 葵 醇 1244 1284 1994 
000110-43-0 2- Bé B] 868 891 1166 
000334-48-5 EKR 354 1370 1885 
000591-68-4 成 酸 丁 酯 1075 1093 1302 
000121-32-4 乙 基 香 兰 素 1407 459 2315 
000120-51-4 AK H R E 1717 1770 2493 
000112-05-0 ER 1260 274 1777 
000119-36-8 水 杨 酸 甲 酯 1166 1196 1594 
000638-25-5 3E Bg Tc 1466 484 1714 
003681-71-8 乙酸 叶 醇 酯 987 1006 1252 
000100-86-7 —H EAE dE Jt 1130 158 1581 
000110-43-0 2- Bé B] 868 891 1166 
000110-27-0 十 四 酸 异 丙 酯 1809 824 2037 





























分 析 化 学 手册 10 化 学 计量 学 
B 
CAS 1L 3e HP-1 HP5-MS DB-225MS 
000103-48-0 异 丁 酸 葵 乙 酯 1367 1396 1818 
000593-08-8 2- 十 三 酮 1474 1495 1818 
000102-16-9 AR LRA H D 1759 1815 2576 
000112-17-4 Len SED 1391 1409 1617 
000659-70-1 FRR FP XL DR 1090 1105 1292 
000118-58-1 Jta RA DR 1823 1875 2633 
004940-11-8 LX ZEB) 1161 1197 1771 
000591-12-8 当归 内 酯 833 869 1325 
000108-29-2 丙 位 戊 内 酯 905 953 1569 
000104-93-8 对 甲 茶 甲 醚 997 1021 1333 
000099-87-6 p-& db Ne 1010 1025 1218 
000106-30-9 R Z AK 1081 1127 1305 
000106-65-0 丁 二 酸 二 甲 酯 999 1032 1467 
000124-06-1 十 四 酸 乙 酯 1775 1793 2036 
000123-92-2 乙酸 异 戊 酯 860 876 1080 
000104-50-7 丙 位 辛 内 酯 1210 1259 1949 
003301-94-8 T IE NR 1343 1394 2148 
010031-82-0 对 乙 氧 基 茶 甲醛 1288 1333 1955 
015356-74-8 — SUBIRE BE VS PR 1481 1537 2477 
000151-10-0 [E] 4k F SE 1135 1168 1580 
000123-29-5 TR 278 1295 1509 
000111-11-5 正 辛 酸 甲 酯 1106 1125 1347 
000706-14-9 Y-3 Vy it 1422 1471 2197 
000093-89-0 A H B2 LER 1142 1172 1547 
000127-41-3 位 紫罗兰 酮 1403 1431 1875 
000705-86-2 8-3 N HE 1448 1499 2270 
000109-25-1 BeRg-3- MH THE 1330 1347 — 
000112-63-0 NE ih B2 FP ER 2067 2094 2466 
016409-46-4 异 戊 酸 -L- 薄 荷 酯 1500 1518 1744 
001076-56-8 2- 异 丙 基 -5- 甲 基 茄 香 醚 1213 1235 1503 
004411-89-6 2- 葵 基 巴 豆 醛 1233 1274 1858 
007452-79-1 2- 甲 基 丁 酸 乙 酯 836 849 1027 
004536-23-6 2- 甲 基 己 酸 1027 1043 1484 
000088-69-7 2- 异 丙 基 茶 酚 1174 1199 1788 
003452-97-9 异 壬 醇 1033 1047 1358 
000104-53-0 AS N RE 1122 1163 1693 
000695-06-7 六 已 内 酯 1005 1055 1708 
000638-49-3 FF RE XC DR 811 826 1050 
033467-73-1 Ji -3- cu s E FR RHE 902 920 1177 
000090-05-1 fi QA B 1058 1090 1577 
000122-84-9 对 甲 氧 基 茶 基 丙酮 1339 1386 2066 
013360-65-1 2- 乙 烷 基 -3 ,5- 二 甲 基 吡 嗪 1055 1078 1370 
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CAS 1L 3e HP-1 HP5-MS DB-225MS 
004748-78-1 对 乙 基 葵 甲醛 1145 1179 1636 
000087-44-5 1- 石 竹 烯 1413 426 1586 
000103-50-4 ZR iE 1610 1654 2256 
001731-84-6 壬 酸 甲 酯 1205 1223 1452 
000124-06-1 十 四 酸 乙 酯 1775 1792 2036 
003681-71-8 乙酸 叶 醇 酯 987 006 1251 
000539-82-2 成 酸 乙 酯 837 852 1037 
000659-70-1 RR FP DDR 1090 104 1292 
006753-98-6 a-4 TES 1445 1460 1916 
025152-84-5 (E, E)-2, 4-3 — t BE 1287 316 1776 
003268-49-3 3- 甲 硫 基 丙 醛 865 907 1368 
001125-21-9 2,6,6- 基 -2- 环 已 烯 -1,4- 二 酮 1104 144 1646 
021834-92-4 5- 甲 基 -2- 葵 基 -2- 己 烯 醛 1455 1493 2065 
002548-87-0 反 -2- 辛 烯 醛 1032 057 1414 
000122-91-8 甲酸 茄 香 酯 291 1334 1933 
000124-19-6 THEE 1082 1104 1383 
000104-67-6 pt E 1528 1576 2321 
000590-86-3 AX BE 870 900 897 
000077-83-8 杨梅 醛 1489 531 2142 
014371-10-9 反 - 肉 桂 醛 1227 1272 1922 
000112-12-9 2- 十 一 酮 1272 293 1573 
000122-03-2 Ti BE 1209 1242 1716 
000107-75-5 羟基 香 茅 醛 1254 288 1864 
002385-77-5 CHOSE ERE 1130 1153 1460 
000122-40-7 Hz SERERE 1613 651 2206 
035044-68-9 a- 大 马 酮 1390 1418 1832 
024720-09-0 CE)-1-C2,6,6-— Hi 4-2-35 O 408-1-380 -2- T 4 -1- Bl] 1370 393 1789 
004313-03-5 反 -2 ,4- 庚 二 烯 醛 981 1010 1430 
038462-22-5 2-(]- 琉 基 -1- 甲 基 乙 基 )-5- 甲 基 环 已 酮 1331 367 1880 
000079-69-6 4-(2,5,6,6- 四 甲 基 -2- 环 已 烯 -1- 基 )-3- 丁 烯 -2- 酮 1491 1519 1982 
000689-67-8 6.10- — H1 3£-5 ,9- 十 一 碳 二 烯 -2- 酮 1408 434 1804 
000112-45-8 10- 十 一 烯 醛 1274 1299 1609 
000105-43-1 3- 甲 基 戊 酸 933 944 一 
000122-00-9 对 甲 基 葵 乙 酮 1151 186 1679 
003796-70-1 (E)-2,6-— Ħ -2 ,6- 十 一 碳 二 烯 -10- 酮 1426 1453 1831 
000090-02-8 水 杨 醛 1009 044 1504 
000112-54-9 H ERE 1387 1408 1713 
002548-87-0 反 -2- 辛 烯 醛 — 057 = 
006728-31-0 CZ0-4-Be kin RE 874 901 1194 
001196-31-2 d - 18 for Bi] 1130 155 1521 
000098-86-2 Ak CB 1032 1067 1532 
000066-25-1 ECH 778 803 1057 


























分 析 化 学 手册 10 化 学 计量 学 
B 
CAS 1L 3e HP-1 HP5-MS DB-225MS 
000110-62-3 ERE — 704 948 
000103-95-7 4g FS E 1426 1464 1959 
000105-57-7 二 乙醇 缩 乙 醛 721 729 一 
003391-86-4 1- 烯 -3- 辛 醇 963 978 1278 
003268-49-3 3- 甲 硫 基 丙 醛 865 907 1368 
000112-44-7 十 一 醛 1285 1306 1575 
000111-87-5 正 辛 醇 1054 1069 1391 
000111-27-3 正己 醇 852 867 1178 
000102-19-2 AR CR ELS 1470 1497 1950 
000103-56-0 Vj B2 FE WR 1515 1555 2105 
000141-14-0 WREEF 1429 1448 1705 
000105-86-2 甲酸 香 叶 酯 1284 1306 1564 
000106-29-6 丁 酸 香 叶 酯 1539 1563 1855 
013532-18-8 3- 甲 硫 基 丙 酸 甲 酯 993 1024 1424 
000103-73-1 Ak CBE 969 993 1286 
000110-27-0 十 四 酸 异 丙 酯 1809 1824 2037 
000124-07-2 EFR 1163 1179 1647 
001188-02-9 2- 甲 基 庚 酸 1128 1141 1564 
000104-76-7 异 辛 醇 1014 1028 1333 
004437-51-8 3,4- 己 二 酮 777 802 1083 
001577-18-0 CE)-3-0 A B2 988 1003 1508 
000079-09-4 丙 酸 — 706 1138 
000111-14-8 IE BE RR 1070 1084 1545 
016409-43-1 玫瑰 醚 1095 1111 1326 
000078-83-1 异 丁 柄 = = 916 
000079-31-2 IN 754 765 1181 
000106-25-2 橙 花 醇 1208 1228 1582 
007212-44-4 FEE USE 1515 1534 1866 
000111-87-5 正 辛 醇 1054 1069 963 
003681-71-8 乙酸 叶 醇 酯 964 1006 1391 
000123-51-3 异 戊 醇 722 734 1251 
000100-51-6 TREE 1004 1034 1033 
000123-66-0 正 已 酸 乙 酯 981 999 202 
000143-13-5 LRT 1292 1309 1532 
000150-84-5 乙酸 香 茅 酯 1333 1352 1584 
000140-26-1 St X RA AE o DR 1461 1494 1931 
000111-62-6 油 酸 乙 酯 2144 2167 2475 
000103-45-7 乙酸 葵 乙 酯 1223 1257 1709 
000106-22-9 SE 1208 1227 1566 
000111-12-6 2-3 Be R FP TR 1169 1202 1557 
000105-53-3 两 二 酸 二 乙 酯 1038 1070 1477 
000105-66-8 TRAH 881 899 1096 
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CAS 化 学 名 称 HP-1 HP5-MS DB-225MS 
000141-16-2 3,7- 二 甲 基 -6- 辛 烯 醇 丁 酸 酯 1508 1528 1784 
000539-90-2 Ti TI 939 954 1145 
024851-98-7 二 氧 茉莉 酮 酸 甲 酯 613 1657 2287 
002198-61-0 e e RR 1232 1249 1458 
000105-85-1 甲酸 香草 酯 1256 1275 1540 
000106-22-9 Lg 1208 1227 1566 
013532-18-8 3- 甲 硫 基 丙 酸 甲 酯 993 1024 1424 
000623-17-6 乙酸 糠 酯 964 995 1366 
000104-57-4 JUR 1045 1078 1518 
005655-61-8 左旋 乙酸 冰片 酯 1268 1288 1561 
000103-59-3 异 丁 酸 肉桂 酯 1547 1584 2105 
000103-37-7 T Be BR 1313 1347 1781 
000101-41-7 AE CBE p 1144 1178 1598 
000140-88-5 丙烯 酸 乙 酯 = 702 911 
000105-85-1 甲酸 香草 酯 256 1275 1540 
059020-85-8 硫 代 丙 酸 糠 酯 1219 1256 1689 
000109-60-4 乙酸 丙 酯 703 715 918 
000093-92-5 乙酸 苏 合 香 酯 1164 1194 1571 
000125-12-2 乙酸 异 龙 脑 酯 1268 290 1569 
000109-19-3 3- 甲 基 丁 酸 丁 酯 1027 1045 1238 
000123-69-3 (2Z)- 氧 代 环 十 七 碳 -8- 烯 -2- 酮 1900 937 2459 
020665-85-4 异 丁 酸 香 兰 酯 1613 1671 2470 
000105-21-5 7Y- 庚 内 酯 1105 154 1822 
000107-92-6 TN 779 794 = 
000765-70-8 3- 甲 基 环 戊 烷 -1 ,2- 二 酮 994 027 1547 
023747-48-0 5- 甲 基 -6,7- 二 氧 -5 五 - 环 友 并 吡 嗪 1107 1140 1529 
018138-04-0 2,3-2 Z 4-5- HP Ak ne 1132 1155 1415 
013678-59-6 2- EF 46-5- CEP ii Je) OK 930 951 1215 
013925-00-3 2- 乙 基 吡 嗪 890 915 1228 
001759-28-0 4- FH dik-5- Z Jis Ak BE R 999 1026 1387 
015707-23-0 3-2, 3k-2- FF A nl e 978 1003 1308 
024683-00-9 2-H & AE-3- 5 T AE npo e 1160 1181 1414 
000693-95-8 A- FP dic E 793 817 1136 
000137-00-8 4- FH di -5- 6 Z di E A 1233 1277 2049 
001759-28-0 4- Ri d&-5- Z, di c IR ME 999 1026 1387 
000127-91-3 B- Ai s 968 978 1092 
001438-91-1 糠 基 甲 基 硫 醚 972 1001 1352 
001124-11-4 2,3,5,6- 四 甲 基 吡 嗪 1063 087 1381 
014667-55-1 2,3,5- 三 甲 基 吡 嗪 979 1004 = 
002882-20-4 2- 甲 硫 基 -3- 甲 基 吡 嗪 1139 169 1521 
034413-35-9 5,6,7, 8- PU e mE We n 1173 1210 1638 
002884-13-1 2-H Ak tii (A-6- FR A ne R 1155 187 1583 















































































































































































































































a 分 析 化 学 手册 10” 化 学 计量 学 
B 
CAS 1L 3e HP-1 HP5-MS DB-225MS 
000350-03-8 3- 乙 酰基 吡啶 1074 1111 705 
001193-79-9 5- Ht d-2- Z Bi t n mi 1005 1038 1507 
022047-25-2 2- 乙 酰基 吡 嗪 987 022 470 
024295-03-2 2- Z Bi AE IE Me 981 1019 1476 
005910-89-4 2,3- 二 甲 基 吡 嗪 893 918 240 
000093-51-6 4- 甲 基 愈 创 木 酚 1163 1193 1715 
025680-58-4 2- 甲 氧 基 -3- 乙 基 吡 嗪 032 053 301 
024683-00-9 2- 甲 氧 基 -3- 异 丁 基 吡 嗪 1160 1181 1414 
013925-07-0 2- 乙 烷 基 -3 ,5- 二 甲 基 吡 嗪 060 084 370 
001122-62-9 2- 乙 酰基 吡啶 999 1033 1458 
000093-16-3 tI BE 418 457 2050 
000093-15-2 甲 基 丁 香 酚 367 1404 1887 
000499-75-2 EF 265 291 866 
000119-84-6 二 氧 香 豆 素 1327 1387 2197 
005989-27-5 右 旋 莫 二 烯 020 029 151 
000097-53-0 Tam 325 359 920 
000513-86-0 3-X& 4-2- T Bi] — 714 1116 
005932-68-3 (E)-2- 甲 氧 基 -4-(1- 丙 烯 基 茶 酚 ) 413 1451 2092 
034413-35-9 5.6,7.8-Vu e me ne ny 1171 1208 1636 
000099-83-2 a-JK FE Ais 995 006 128 
000515-13-9 B-A E s 1384 1426 1545 
000586-62-9 异 松 油 烯 077 089 229 
000123-35-3 月 桂 烯 982 991 1107 
000540-07-8 正己 酸 正成 酯 269 287 506 
000106-02-5 环 十 五 内 酯 805 1839 一 
000111-87-5 正 辛 醇 054 1070 392 
000078-59-1 异 佛 尔 本 1089 1122 1581 
000470-82-6 核 叶 油 醇 018 032 212 
000060-12-8 ABE 1082 1114 1660 
007549-33-9 丙 酸 -4- 甲 氧 基 葵 甲 ( 醇 ) 酯 1471 514 2092 
000110-38-3 EKREM 1377 1394 1586 
000118-58-1 Js BR ER 825 877 2634 











二 、 基 于 模式 识别 的 建 模 方法 及 其 应 用 

















将 模式 识别 技术 用 于 定量 构 效 关系 的 研究 是 近年 来 取得 的 新 进展 。 有 关 化 学 模式 识别 的 
一 些 方法 在 第 七 章 已 经 介绍 过 了 ， 在 此 只 对 它们 在 定量 构 效 关系 中 的 应 用 研究 情况 给 出 简要 


We. 


























别 的 应 用 概述 

















化 学 学 科 的 一 个 中 心 任务 就 是 要 研究 化 合 物 的 结构 与 反应 活性 的 关系 ， 尤 其 是 生化 反应 
中 的 结构 与 活性 的 关系 近年 来 受到 化 学 家 的 广泛 关注 。 正 如 本 书 前 节 讨 论 的 那样 ， 这 些 关 系 


影响 因素 较 多 ， 如 极 性 性 质 、 立 体 效 应 等 ， 用 量子 化 学 进行 详细 的 理论 计算 则 太 复 杂 ， 
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计算 量 太 大 以 致 难以 实施 。 这 样 ， 化 学 模式 识别 就 成 了 现在 少数 几 个 有 用 的 研究 定量 构 效 关 
系 手段 之 一 ， 值 得 引起 化 学 家 的 重视 [105) 。 

1. 化 合 物 结构 的 模式 识别 分 析 

化 合 物 的 结构 可 由 一 个 “主干 ” 和 主干 上 一 些 特 殊 位 置 的 取代 基 来 描述 29] ， 这 样 一 些 
特殊 位 置 上 的 取代 基 的 化 学 性 质 就 可 用 上 市 讨论 的 一 些 参数 来 进行 描述 ， 一 些 特殊 的 性 质 还 
可 通过 量子 力学 的 计算 得 到 ， 这 样 ， 一 组 具有 相同 化 学 结构 主干 的 化 合 物 就 转变 成 由 一 组 数 
据 矢量 来 表示 ,不 同 的 反应 特性 就 应 该 具有 不 同 的 数据 结构 。 一 些 已 知 反 应 特性 的 矢量 数据 
可 构成 化 学 模式 识别 方法 中 的 训练 集 (参见 第 七 章 )， 通 过 训练 ， 就 可 对 一 些 具 有 同样 化 学 
结构 主干 的 未 知 化 合 物 的 反应 特性 来 进行 预测 了 。 

在 这 里 讨论 这 样 的 一 个 例子 。 有 这 样 一 系列 具有 如 下 化 学 结构 主干 的 化 合 物 : 


X(Y)—Ce H4—CH(CRO —CHCR) —NH—R? 















































在 这 里 ， 五 种 不 同 取代 基 X GX YO. R, R! 及 R? 可 从 H ZEE] CHCH; )—CH:—C; H 一 OH， 
采用 前 述 方法 将 这 些 化 合 物 由 一 组 数据 矢量 来 表示 ， 其 中 只 有 一 个 变量 是 由 测量 给 出 的 。 这 
组 数据 的 训练 集 由 32 个 化 合 物 构成 ， 每 个 化 合 物 由 13 个 变量 表示 出 。 训 练 集 由 两 类 不 同类 
型 的 化 合 物 组 成 ， 一 类 的 反应 活性 高 ， 为 兴奋 剂 ， 共 15 个 ; 另 一 类 的 反应 活性 低 ， 为 阻 滞 
剂 ， 共 17 ^^, Dunn ÆU] RH SIMCA 方法 对 这 些 数据 进行 了 分 析 ， 得 到 一 些 有 用 的 结果 ， 
并 对 未 知 物 也 作 了 预测 ， 说 明 化 学 模式 识别 是 一 种 有 用 的 进行 定量 构 效 关系 研究 的 方法 。 类 
似 的 例子 可 参阅 文献 L111，112]。 

2. 钢材 断裂 性 能 的 模式 识别 分 析 

瑞典 钢铁 公司 试制 了 15 个 新 钢 种 ， 在 新 钢 种 的 钢材 加 工 过 程 中 ， 有 9 种 钢材 开裂 ， 另 
6 种 不 开裂 ， 为 了 查 明 钢 中 微量 元 素 对 钢材 开裂 的 影响 ， 他 们 分 析 了 这 15 种 钢材 中 的 17 种 
微量 元 素 ， 并 用 模式 识别 的 SIMCA 算法 寻找 规律 ， 结 果 发 现 : “好 钢 ” 的 成 分 代表 点 集中 
在 一 个 较 小 的 区 域 ， 可 包括 在 一 个 高 维 空间 的 包 络 面 内 ; “ 坏 钢 ”的 数据 点 则 很 分 散 。 这 是 
因为 : 引起 开裂 的 原因 不 止 一 种 ， 故 “ 坏 钢 ”区 事实 上 是 多 个 区 域 的 车 加 ,，“ 坏 钢 ” 的 样本 
点 集 没有 包 络 面 ，Wold 称 这 类 情况 为 “不 对 称 SIMCA 分 析 ”[113]。 

3. 模式 识别 用 于 药物 设计 

据 1978 年 估计 ， 全 世界 用 于 寻找 新 药 的 费用 每 年 达 20 亿美 元 左右 ， 每 发 明 一 种 重要 的 
新 药 耗资 为 四 千 万 美元 。 为 了 更 快 更 省 地 开发 新 药物 ， 人 迫切 需要 总 结 化 合 物 分子 结 构 和 疗效 
的 关系 ， 以 提高 探索 的 命中 率 。 这 种 构 效 关系 研究 可 有 演绎 法 和 归纳 法 两 种 。 演 绎 法 是 从 量 
子 生物 学 角度 查 明 药物 活性 的 机 理 从 而 确定 何 种 结构 最 有 效 。 但 目前 的 知识 水 平 距 这 一 目标 
尚 十 分 遥远 。 归 纳 法 则 是 利用 模式 识别 等 方法 从 大 量 实验 结果 中 总 结 规律 。 这 一 方法 虽然 是 
纯 经 验 性 质 或 半 经 验 性 质 ， 但 切实 可 行 。 由 于 新 药 人 研制 中 合成 和 药理 研究 的 工作 量 很 大 ， 费 
用 也 相当 高 ， 即 使 模式 识别 方法 的 预测 率 的 准确 度 不 高 ， 也 能 产生 一 定 效 益 。 用 模式 识别 进 
行 药物 设计 的 最 大 困难 ， 是 如 何 选取 有 效 的 结构 描述 参数 ， 一 种 常用 的 方法 是 假定 生物 活性 
与 结构 参数 有 线性 关系 ， 这 当然 是 一 种 粗略 的 近似 或 简化 。 

Kowalski 等 用 模式 识别 方法 研究 抗 瘤 药 的 构 效 关系 [4 。 他 们 取 200 个 化 合 物 〈 其 中 
87 个 有 抗 癌 活性 )。 选 择 了 20 个 结构 参数 ， 其 中 下 列 参 数 最 为 有 效 : 

CD. 硫 原子 数 / 总 原子 数 ; 

© C—S 键 数 / 碳 原子 数 ; 

© S—H 键 数 ; 

由 C—C 键 数 / 碳 原子 数 ; 
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C) 碳 原子 数 /总 原子 数 。 

用 线性 判别 函数 法 和 -最 邻近 法 ， 分 类 率 可 达 90% 左 右 。 但 也 有 人 对 这 种 分 类 判别 方 
法 提出 不 同意 见 。 

Chu 等 [11 引 用 线性 判别 函数 法 和 KK- 最 邻近 法 用 51 个 变量 来 识别 188 个 药物 的 抗 癌 活 
性 。 预 报 24 个 未 知 化 合 物 的 抗 癌 活 性 ， 成 功率 达 83%~~92%。 

4. 致癌 物 生 物 活性 的 模式 识别 研究 

多 环 芳烃 (PAH) 致癌 是 有 关 环 保 和 癌症 病因 的 重要 课题 。 人 们 通过 大 量 实 验 注意 到 : 














多 环 芳烃 的 分 子 图 形 和 致癌 活性 有 很 大 关系 。 例 如 sontes C sen. 
而 同样 有 5 ani Y I T DMDREUB. 自从 Pullman 提出 K-L 区 理论 以 解释 多 


环 芳烃 分 子 的 结构 与 致 瘤 活 性 关系 以 来 ， 这 一 课题 一 直 是 理论 生物 化 学 关注 的 重心 之 一 。 
K-L 区 理论 和 后 来 提出 的 湾 区 理论 都 注意 到 分 子 形状 与 致癌 活性 的 关系 。 在 遥感 、 指 纹 分 
类 、 汉 字 识 别 等 领域 广泛 使 用 的 句法 模式 识别 技术 ， 是 用 计算 机 总 结 形状 信息 的 有 力 工 具 ， 
舒 永昌 和 陈 念 贻 就 用 这 一 技术 研讨 了 多 环 芳烃 致癌 活性 的 规律 5 。 

5. 嗅觉 活性 化 合 物 的 模式 识别 研究 

Schiffman 用 模式 识别 方法 研究 香料 化 合 物 的 构 效 关系 。 由 25 个 结构 化 学 参数 (包括 
Raman 光谱 信息 ) 组 成 的 模式 空间 ， 用 非 线性 映照 的 方法 对 30 个 化 合 物 分 类 [7 。 

Jurs 用 线性 判别 函数 法 详细 研究 了 订 香 化 合 物 的 构 效 关系 。 训 练 集 包括 60 PERLA 
物 和 240 个 非 磨 香 化 合 物 。 用 计算 机 产生 68 个 结构 描述 单元 (包括 分 子 碎片 、 亚 结构 和 几 
何 描述 单元 ) ， 从 中 筛选 出 13 个 最 有 效 的 参数 。 计 算 结果 表明 : 廊 香 化 合 物 的 香气 质量 不 是 
由 一 个 分 子 参 数 ， 而 是 由 多 个 分 子 参数 决定 的 。 用 9 个 未 列 人 训练 集 的 化 合 物 的 分 类 来 检查 
模型 的 预报 能 力 ， 分 类 效果 很 好 [5 。 

McGill 等 用 模式 识别 方法 筛选 影响 化 合 物 香 味 的 主要 结构 因素 ， 从 红外 光谱 、 紫 外 光 
谱 、 核 磁 波 谱 、 分 子 量 、 熔 点 、 沸 点 、 密 度 、 旋 光 性 、 水 溶性 、 醇 性 和 化 学 键 参数 中 选择 特 
征 量 ， 结 果 从 43 个 变量 中 找到 两 个 主要 影响 因素 一 一 分 子 的 电子 施主 特性 和 偶 极 矩 29] 。 
6. 微量 元 素 与 病因 学 的 模式 识别 研究 
近年 来 人 们 注意 到 ， 微 量 元 素 的 比例 失调 是 许多 病 (尤其 是 地 方 病 ) 的 病因 或 重要 因 
素 。 微 量 元 素 硒 的 防 瘤 作 用 近年 来 受到 广泛 注意 ， 同 时 也 发 现 其 他 几 种 元 素 对 硒 有 持 抗 作 
用 。 为 了 查 明 多 种 微量 元 素 对 瘤 钙 发 病 率 的 影响 ， 陈 念 贻 等 22 取 25 个 国家 和 两 个 地 区 的 
居民 (通过 食物 ) 对 三、 和 镑 、 锅 、 铜 、 铬 、 砷 的 平均 摄 和 人 量 为 模式 识别 的 特征 变量 构成 模式 
空间 ， 将 这 些 国 家 和 地 区 的 (根据 年 龄 修正 的 ) 乳癌 死亡 率 计 入 其 中 ， 作 非 线 性 映照 ， 结 果 
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0 图 9-19 所 示 ， 原 始 数据 列 于 表 9-37. MA 9-19 可 以 看 出 ， 乳 癌 高 发 病 国家 (乳癌 死亡 率 
于 每 十 万 人 中 17 人 ) 和 乳癌 低 发 病 国 家 分 布 在 不 同 区 域 ， 其 间 有 明显 的 分 界线 。 

7. 模式 识别 与 催化 研究 

催化 问题 是 化 工 生 产 最 重要 的 问题 之 一 。90% 以 上 的 化 工 生 产 都 要 用 到 人 催化剂。 催化 剂 
的 研制 往往 是 一 个 化 工 流程 成 败 的 关键 。 众 化 现象 很 复杂 ， 广泛 应 用 的 多 相 催 化 尤其 如 此 ， 
从 分 子 水 平 看 ， 催 化 剂 表面 的 原子 排列 和 电子 结构 是 催化 作用 的 基础 ， 由 于 催化 剂 成 分 很 复 
杂 ， 多 为 复 相 ， 表 面 结构 和 成 分 既 未 能 完全 查 明 ， 更 无 法 用 “原子 级 加 工 ” 来 控制 表面 结 
构 ， 活 性 中 心 往往 由 局 部 表面 结构 决定 ， 而 局 部 表面 结构 的 量 测 至 今 尚 无 妥善 办 法 。 另 一 方 
面 ， 许 多 化 学 反应 的 机 理 也 很 复杂 ， 不 同 的 机 理 可 导致 不 同 的 产物 。 宏 观 的 化 学 反应 还 涉及 
传 热 、 传 质 和 液体 流动 问题 ， 这 又 和 催化 剂 的 显 微 结 构 有 关 。 催 化 剂 的 制备 方法 、 制 备 条 件 
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微量 元 素 摄 入 量 与 癌 死 亡 率 的 关系 
。 高 摄 入 量 、 高 死亡 率 国家 和 地 区 ; o 低 摄 入 量 、 低 死亡 率 国 家 和 地 
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和 显 微 结构 有 着 复杂 的 联系 ……， 所 有 这 一 切 都 决定 着 催化 剂 研究 的 复杂 性 。 近 年 来 ， 由 于 

计算 量子 化 学 的 长 足 发 展 ， 为 我 们 提供 了 有 关 催 化 的 大 量 信息 ， 为 从 更 深入 的 理论 上 解决 催 

| 但 真正 用 量子 化 学 和 表面 分 析 技 术 彻底 弄 清 和 掌握 催化 问题 还 很 遥 
。 在 这 种 状况 下 ， 模 式 识别 法 还 可 做 出 一 些 有 益 贡 献 。 


元 素 摄 入 量 与 乳癌 死亡 率 的 关系 








































































































摄 入 量 / (mg/a) 
国家 或 地 区 3E 1: 3/1075 
Se Cu Zn Cd Cr Mn As 

WKH 75.9 1125 6948 123. 9 21.4 722 152.4 19 
Jg jf 71.6 824 4272 77.0 22.0 858 102. 4 17 
比利时 70.6 741 4425 80.5 21.1 803 58. 2 21 
加 拿 大 61.8 874 5313 97.2 21.9 711 139.1 23.5 
F zx 71.1 725 4387 76.9 18. 6 677 66. 0 24 
前 西 德 64. 3 784 4473 74. 4 20.6 751 136.3 17.5 
爱尔兰 75.1 836 3712 99. 7 16.4 889 14.4 21.5 
以 色 列 77. 3 822 449 77.1 23.2 923 136.9 2 
Bp x 57.8 693 3741 70.8 20.3 701 08.5 26 
WO 威 82.2 608 126 87.5 7.0 672 269.1 17.5 
io 典 65.8 703 3783 74.8 18. 3 646 67.1 18. 5 
Hp E 65.6 850 4169 83. 6 23.2 819 109. 6 21.5 
3 E 61.7 729 4502 85.4 17.7 717 32.2 25 
X 国 61.0 849 5108 87.3 25.4 652 132. 8 21.5 
保 加 利 3 107.6 861 3924 79.5 6.7 1129 102 9.0 
捷 xx 85.1 838 4712 82. 6 15. 3 1029 20.2 5.5 
芬 兰 67.1 690 3623 88.2 3.7 716 132 13 
ik E 76.4 881 5339 91.5 21.2 965 73.8 6 
d dH 91.9 911 4452 92. 3 7: 1154 185. 8.5 

香港 (中 国 ) 91.2 639 2959 54. 6 19. 6 463 273. 4 0 
匈牙利 86.5 768 3958 72. 4 4.9 1075 91. 3 14.5 
意大利 82.5 855 4304 83.8 6.4 1161 134. 4 6.5 
H 本 85.8 643 2420 43. 4 7.4 674 233 3.5 
波 兰 93.8 634 5231 80.3 15.9 876 138.3 11 
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续 表 
摄 入 量 /(mg/a) 
国家 或 地 区 5E T- 38/1075 
Se Cu Zn Cd Cr Mn AS 
葡萄 牙 87.2 714 4347 74. 6 15.8 1008 268.5 12.5 
台湾 (中 国 ) 84.1 592 1674 33.3 12.8 522 184. 3 4.0 
前 南斯拉夫 98. 6 722 3288 72. 9 13.7 1169 82.1 3.0 


























8. 二 维 模式 识别 在 催化 研究 中 的 应 用 。 

用 两 个 变量 作 二 维 参数 图 有 时 也 能 总 结 一 些 催 化 规律 。 下 面 以 乙 抉 与 氯化氢 气相 加 成 反 
应 为 例 。 乙 烽 与 氯化氢 气相 加 成 反应 是 基本 有 机 合成 的 重要 反应 之 一 ， 用 所 化物 所 含 金 属 的 
电荷 -半径 比 和 电 负 性 为 坐标 作 图 ， 二 十 余 种 氯 化 物 的 催化 活性 在 图 上 呈 规 律 性 分 布 〈 见 图 
9-20) 21.122] 。 

从 图 9-20 中 可 以 看 出 ，Hg?*+ , Pd?*, Cu* 、Ag 氧化 物 的 催化 活性 较 高 ， 其 他 阳 离 
子 活性 较 低 ， 它 们 之 间 有 明显 分 界线 ， 界 面 方程 为 : 

zir, —3xr 4- 3.45 20 
此 式 可 与 刘 祈 涛 提出 的 金属 离子 软 硬 酸度 判 据 相对 照 
f=z/r, — 3x 4- 2.2 

由 此 可 知 ，f 大 于 或 小 于 一 1.25 是 研究 的 催化 活性 高 低 的 分 类 判 据 。 这 说 明正 是 离子 

的 软 硬 酸 碱 特性 和 这 一 反应 有 对 应 关系 。 



























































Z 55 SAC SB T tI rb f LL RO FE E 








4 Je LL E: 5 — SC ie RUE I I e — ^ PEL. E ze SCC P HE LA ALH o MER 
氧化 物 阳 离子 的 半径 > 为 坐标 作 图 ， 一 氧化 碳 氧 化 活性 分 布 聚 类 较 好 〈 见 图 9-21)。 活 性 低 
的 C 区 有 : BeO、GeO;、AlsO3、SiOs; 活性 高 的 A 区 有 : MnOs, CoO, MnO, CdO, 
Ag:O, NiO, CuO, SnO:, Cu:O M ZnO, 活性 最 高 的 氧化 物 集中 在 7 AN 65pm, —AHo 
在 209~ 376. 2kJ/mol 范围 。 这 用 音 示 有 几何 因子 和 能 量 因子 起 作用 。 催 化 作用 很 复杂 ， 用 两 
个 因素 概括 常常 是 不 够 的 ， 因 此 需要 多 维 空间 模式 识别 。 

如 在 第 六 章 和 第 七 章 所 述 ， 人 工 神经 网 络 技术 既 可 用 于 多 元 校正 〈 回 归 ) 又 可 用 于 模式 
识别 ， 特 别 是 它 的 非 线性 映照 的 特性 ， 更 使 得 它 在 构 效 关系 QSAR) 研究 中 独 具 魅 力 ， 故 
近年 来 在 化 学 构 效 关系 的 建 模 中 得 到 了 十 分 广泛 的 应 用 ， 是 目前 化 学 计量 学 研究 中 的 一 个 热 
i 领域 L[123~126] 。 

人 工 神经 网 络 在 构 效 关系 (QSAR) 研 究 中 有 很 好 的 应 用 前 景 。 一 些 研究 过 的 例子 如 1- H8 
基 -4- 茶 基 -1,2,3,6- 四 氧 吡啶 (MPTP) 的 同类 物 对 人 肝脏 二 氧 蝶 啶 还 原 酶 CDHPRO 的 抑制 
作用 的 QSARU?7, WERE (ONPAHO 的 致 突变 活性 与 分 子 结构 参数 之 间 的 关 
ARLUSI. 、 对 位 取代 茶 酚 衍生 物 的 生物 活性 与 其 结构 及 物理 化 学 性 质 参 数 之 间 的 关系 U3]、 氢 
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配合 物 中 Eu M) 离子 的 4f-4f 及 5d-4f 二 类 光谱 跃迁 与 其 结构 参量 之 间 的 关系 [3%] ， 等 等 。 
这 些 课 题 均 用 人 工 神 经 网 络 方法 取得 了 很 好 的 结果 。 用 人 工 神经 网 络 处 理 传感器 阵列 数据 ， 
可 进行 化 学 物质 013 及 其 气味 的 辨识 [32] 。 许 多 国家 对 投放 市 场 的 种 子 是 否 混杂 有 外 来 异种 
有 严格 规定 。Chtioui 等 033] 比较 了 不 同 的 人 工 神 经 网 络 方法 用 于 种 子 的 分 类 鉴别 。 
Cinar 2 探讨 了 时 间 序 列 模型 及 人 工 神 经 网 络 用 于 动态 化 学 过 程 模拟 。 基 于 径 基 本 数 的 
ANN 模型 被 认为 更 适 于 描述 动态 化 学 过 程 。 目 前 ， 有 关 和 借 白 质 结 构 的 数据 可 由 一 些 数据 库 
提供 ， 这 些 数据 包括 X 射线 衍射 及 NMR 测试 结果 。 在 结构 数据 的 基础 上 ， 采 用 人 工 神经 网 
络 可 对 蛋白 质 的 模式 或 特征 进行 预报 。 先 驱 工作 是 对 二 级 结构 的 预测 [3] ， 其 后 的 研究 很 快 
开展 起 来 0536~139] 。 运 用 神经 网 络 法 从 头 预 测 3D 结构 及 三 级 结构 均 已 有 报道 [4.14]， 有 兴 
趣 的 读者 可 参考 有 关 文 献 ， 此 处 不 再 详 述 。 

总 之 ， 人 工 神经 网 络 在 构 效 关系 〈QSAR) 研究 中 方兴未艾 ， 可 望 解决 一 些 在 经 典 回 归 
方法 和 模式 识别 方法 难于 解决 的 一 些 问题 ， 特 别 是 近年 来 ， 机 顺 学 习 的 兴起 ， 人 工 神经 网 络 
在 深度 学 习 算 法 发 展 十 分 迅速 ， 是 一 个 特别 值得 继续 研究 的 领域 。 

(二 ) 化 学 模式 识别 在 药物 设计 中 的 应 用 

为 使 读者 对 目前 化 学 模式 识别 在 药物 设计 中 的 应 用 有 更 深入 的 了 解 ， 我 们 特意 选择 了 6 
个 有 代表 性 的 线性 和 非 线性 的 算法 ， 即 支持 向 量 机 (SVM)、 随 机 森林 (RF)、K- 最 近邻 
(K-NN)、 偏 最 小 二 乘 判 别 分 析 (PLS)、 分 类 回归 树 CART) 亦 称 决 策 树 (RPart) 以 及 
神经 网 络 (NNET) 这 六 种 具有 代表 性 的 统计 学 方法 进行 QSAR 建 模 分 析 。 从 而 进行 多 种 
模型 方法 的 比较 研究 ， 评 价 各 方法 的 预测 相关 性 。 在 分 子 结构 描述 符 方面 ， 也 找到 几 种 有 代 
表 性 的 分 子 指纹 描述 符 ， 并 与 理论 计算 描述 符 对 比 ， 本 文 的 QSAR 研究 选取 了 定义 规范 严 
说 的 具备 相当 代表 性 的 三 种 分 子 指纹 描述 子 ， 分 别 为 MACCS、PubChem 和 Estate 分 子 指 
纹 。MACCS 指纹 作为 使 用 最 为 广泛 的 分 子 指纹 之 一 ， 包 括 166 个 在 药物 研究 中 经 常用 到 的 
子 结 构 模 式 。PubChem 分 子 指 纹 是 美国 国立 卫生 研究 院 (National Institutes of Health. 
NIH) 为 便于 对 有 机 小 分 子 生物 活性 数据 库 即 PubChem 数据 库 分 子 进行 结构 描述 及 相似 性 
比较 而 建立 的 一 套 分 子 指纹 ， 共 包括 881 个 子 结构 参数 ，PubChem 子 结构 参数 的 具体 定义 
可 从 美国 国立 卫生 研究 院 的 国家 生物 技术 信息 中 心 (National Center for Biotechnology In- 
formation， 简 称 NCBI) 网 站 上 下 载 获得 (http: // pubchem. ncbi. nlm. nih. gov), Estate 
分 子 指 纹 共 包括 79 个 子 结构 模式 定义 。 为 便于 对 分 子 指纹 QSAR 建 模 的 效果 进行 评估 和 比 
较 ， 本 文 还 采用 了 Dragon 结构 参数 描述 子 进 行 QSAR 建 模 分 析 。 通 过 模型 选 出 的 重要 分 子 
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描述 子 反映 的 结构 信息 ， 对 所 研究 的 化 合 物 活性 及 性 质 进 行 一 定 的 构 效 关系 解释 。 需 要 说 明 
的 是 ， 在 此 进行 QSAR/QSPR 研究 对 象 为 细胞 色素 P450 CYP2D6 抑制 性 、Ames 致 突变 性 
这 两 种 重要 的 化 合 物 药物 活性 及 毒性 数据 ， 数 据 来 源 于 权威 的 机 构 网 站 或 者 是 期 刊 链 接 ， 数 
据 可 靠 性 可 得 到 保证 。 本 章 QSAR/QSPR 研究 所 采用 的 方法 及 主要 内 容 见 图 9-22, 
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本 文 的 QSAR/QSPR 研究 的 主要 方法 及 内 容 


1. 细胞 色素 P450 CYP2D6 抑制 性 

细胞 色素 P450 是 最 重要 的 一 组 代谢 酶 ， 它 既是 内 源 性 物质 的 代谢 酶 也 是 外 源 性 物质 的 
代谢 酶 ， 它 可 代谢 大 约 25 万 种 外 源 性 物质 ， 包 括 临 床 治疗 药物 、 环 境 中 的 污染 物 和 致癌 物 
如 杀 虫 剂 、 击 化 烃 、 多 环 芳 香 烃 、 芳 胺 等 。 其 中 ，70% ~80% 依 赖 于 工 相 代 谢 的 临床 用 药 是 
H CYP1、CYP2、CYP3 这 3 个 家 族 参与 代谢 的 ， 药 物 在 体内 的 许多 代谢 动力 学 特征 、 不 良 
反应 等 均 和 参与 其 代谢 的 P450 有 有关。 因此， 通过 对 细胞 色素 P450 的 研究 ， 可 以 更 好 地 认 
识 和 预测 药物 代谢 途径 及 副作用 。P450 的 诱导 和 抑制 是 药物 相互 作用 最 常见 的 原因 ， 使 得 
在 2 种 或 2 种 以 上 药物 同时 或 前 后 序 贯 使 用 时 ， 相 互 干扰 代谢 环节 ,使 药物 疗效 增强 或 减 
弱 ，P450 被 抑制 是 引起 药物 不 良 反应 的 最 常见 原因 。 由 于 P450 系统 是 机 体内 药物 生物 转化 
的 主要 酶 系 ， 参 与 药物 代谢 的 许多 关键 步 又， 对 细胞 色素 P450 的 研究 在 药物 药 效 评价 、 药 
物 安全 有 效 的 使 用 和 个 体 化 给 药方 案 的 实施 以 及 毒 理学 研究 方面 都 具有 重要 的 理论 和 实际 应 
用 价值 。 特 别 是 在 药物 的 研发 过 程 中 ， 建 立 数学 模型 并 预测 化 合 物 对 特定 P450 酶 的 抑制 
性 ， 具 有 非常 重要 的 意义 和 作用 [142'143] 。 

目前 ， 科 学 家 已 确定 了 57 个 人 类 P450 基因 (CYP), P450 超 家 族 依次 可 分 为 家 族 、 亚 
家 族 和 亚 型 ， 而 其 中 CYP2D6 亚 型 是 参与 氧化 代谢 最 重要 的 P450 亚 型 之 一 。 本 文 对 P450 
CYP2D6 抑制 性 进行 SAR 建 模 分 析 ， 所 采用 的 CYP2D6 抑制 性 数据 下 载 于 美国 国立 卫生 研 
究 院 (NIH) 国家 生物 技术 信息 中 心 (NCBI) 的 小 分 子 生 物 活 性 数据 库 (http: / 
pubchem. ncbi. nlm. nih. gov/) 。 在 去 除 源 数据 中 结构 为 混合 物 、 活 性 标 为 不 确定 及 无 法 计 
算 Dragon 描述 符 的 所 有 物质 后 ， 保 留 的 化 合 物 作 为 本 文 的 研究 和 计算 对 象 ， 其 中 作为 训练 
集 和 测试 集 的 抑制 剂 和 非 抑制 剂 分 子 数 列 于 表 9-38 中 。 




































































本 研究 中 P450 CYP2D6 抑制 性 数据 训练 集 及 测试 集 分 子 数 








数据 集 类 型 抑制 剂 数 非 抑 制剂 数 总 数 
训练 集 287 279 566 
测试 集 1145 1115 2260 
总 R 1432 1394 2826 
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2. Ames 致 突变 性 

药物 的 毒性 研究 是 药物 研发 中 最 重要 的 领域 之 一 ， 也 是 人 力 物 力 消 耗 极 大 的 一 个 过 程 ， 
所 以 ， 计 算 机 模拟 的 QSAR 方法 对 化 合 物 毒 性 进行 预测 也 就 非常 重要 和 迫切 。 另 外 ， 
QSAR 方法 预测 化 合 物 毒性 对 于 环境 科学 、 食 品 科 学 、 精 细 化 工 等 领域 都 有 重要 意义 。 化 
合 物 致 突变 性 是 最 为 重要 的 毒性 之 一 ， 目 前 ， 国 际 上 广泛 采用 的 化 合 物 突变 性 试验 方法 是 沙 
门 氏 菌 回复 突变 试验 方法 ， 也 称 为 Ames 方法 。 鉴 于 化 学 物质 的 致 突变 作用 与 致癌 作用 之 间 
密切 相关 ， 故 Ames 试验 方法 现 广泛 应 用 于 致癌 物 的 筛选。Ames 致 突变 性 是 QSAR/QSPR 
研究 的 一 个 重要 对 象 D442745] 。 

本 文 所 研究 的 Ames 致 突变 数据 也 下 载 于 美国 国立 卫生 研究 院 NIH) 国家 生物 技术 信 
息 中 心 (NCBD 的 小 分 子 生 物 活性 数据 库 (http: // pubchem. ncbi. nlm. nih. gov/)， 共 包 
含 7379 个 分 子 ， 其 中 有 4121 个 Ames 致 突变 分 子 和 3258 个 非 致 突变 分 子 。 随 机 划分 的 训 
练 集 和 测试 集 分 子 数 列 于 表 9-39 。 






































本 研究 中 Ames 致 突变 性 数据 训练 集 及 测试 集 分 子 数 








数据 集 类 型 致 突变 分 子 数 非 致 突变 分 子 数 总 数 
训练 集 413 326 739 
测试 集 3708 2932 6640 
总 集 4121 3258 7379 








本 章 的 原理 与 算法 主要 包括 以 下 几 方 面 的 内 容 : 分 子 结构 描述 子 ，QSAR/QSPR 模型 
































统计 学 算法 ， 变 量 选择 方法 ， 模 型 应 用 域 定 义 方 法 及 模型 验证 方法 。 最 后 给 出 相关 计算 的 实 
现 方法 。 

3. 分 子 指 纹 和 Dragon 结构 参数 描述 子 

对 于 P450 CYP2D6 抑制 性 、Ames 致 突变 性 这 两 组 数据 的 Dragon 描述 子 构 效 关 系 模 
型 ， 我 们 用 Dragon 软件 (版 本 5.4) 计算 得 到 的 929 个 0D-2D 分 子 描述 符 。 

4. 统计 学 建 模 算法 

这 些 方法 的 共同 特点 是 算法 定义 明确 ， 具 有 成 熟 的 理论 体系 ， 算 法 的 数据 输入 、 参 数 优 
选 及 结果 输出 均 有 一 整套 严密 和 标准 程序 执行 ，QSAR 研究 者 可 通过 标准 的 程序 包 进 行 相 
应 计算 和 结果 重 现 。 

5. 变量 选择 方法 

变量 选择 在 QSAR 建 模 以 及 模型 机 理解 释 方面 都 是 必 不 可 少 的 手段 和 环节 。 很 多 
QSAR 研究 已 经 证 明了 进行 变量 选择 ， 去 除 宛 余 变 量 信息 ， 在 很 多 情况 下 不 但 不 会 损害 模 
型 的 性 能 ， 相 反 会 提高 模型 预测 精度 ， 从 这 个 角度 上 说 ， 变 量 选择 方法 也 可 看 做 是 模型 算法 
的 一 个 组 成 部 分 。 从 模型 机 理解 释 的 角度 ， 变 量 选 择 方法 选 出 的 一 组 建 模 效果 较 好 的 描述 
子 ， 也 是 最 能 解释 化 合 物 结构 与 活性 关系 的 一 组 描述 子 。 本 文 在 确定 变量 选择 方法 时 ， 对 基 
于 信息 增益 (IG)、 基 于 随机 森林 Gini 指数 重要 性 、 基 于 偏 最 小 二 乘 回 归 系 数 绝 对 值 加 权 和 
的 三 种 变量 选择 方法 进行 了 比较 ， 发 现 基 于 偏 最 小 二 乘 回归 系数 绝对 值 加 权 和 的 变量 选择 方 
法 结果 稍 优 于 其 他 两 种 变量 选择 方法 ， 最 终 确 定 采 用 这 种 变量 选择 方法 〈 本 文中 以 PLS-va- 
rimp 符号 表示 ) ， 对 重要 变量 进行 建 模 分 析 及 模型 解释 。 

6. 模型 参数 确定 及 验证 方法 

本 研究 中 各 模型 算法 的 参数 优化 是 通过 4 折 交 叉 校 验 来 完成 ， 如 PLS 方法 的 最 优 主 成 
分 数 ， 支 持 向 量 机 的 惩罚 因子 c 的 优化 值 ， 随 机 森林 的 随机 输入 变量 数目 mtry 的 优化 值 ， 
取 4 折 交 叉 校 验 预 测 误差 最 小 时 的 参数 作为 最 终 模型 的 参数 值 。 对 本 研究 中 各 QSAR 模型 
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的 验证 采用 模型 内 部 验证 及 模型 外 部 验证 的 综合 结果 来 评价 。 模 型 内 验证 是 基于 对 训练 集 样 
本 的 4 折 交 义 校 验 (4-fold cross validation) 的 预测 结果 。 模 型 外 验证 是 基于 对 测试 集 分 子 
的 预测 结果 的 统计 值 。 验 证 指标 主要 包括 交叉 检验 总 预测 准确 性 Coverall prediction 
accuracy. QO, 、 测 试 集 敏感 性 (sensitivity，SE)、 测 试 集 特 异性 (specificity, SP), MWA 
集 总 预测 准确 性 (Acc) 以 及 测试 集 ROC 曲线 下 的 面积 (AUC) 这 几 个 结果 。 其 中 AUC 
由 软件 对 测试 集 ROC 曲线 下 的 面积 进行 计算 得 到 ， 其 他 指标 的 计算 式 如 下 : 






































TP 十 TN 
TP 十 TN 二 FP 十 FN 

TP 

SE =P HFN 
TN 

SP = FN 4 FP 

TM TP 十 TN 

eC BEGEUPNSERPSEEN 








式 中 ，Q 的 计算 公式 中 TP、TN 、FP REN 分 别 为 训练 集 交 叉 检 验 中 真 阳 性 、 真 阴 
性 、 假 阳性 及 假 阴 性 的 样本 数目 ， 其 公式 中 TP、TN、FP REN 分 别 为 测试 集中 真 阳性 、 
真 阴性 、 假 阳性 及 假 阴 性 的 样本 数目 。 

7. 相关 计算 的 实现 和 程序 

本 研究 中 所 有 化 合 物 的 MACCS、PubChem 和 Estate 分 子 指纹 都 是 通过 新 加 坡 国立 大 
学 (NUS) 开发 的 Java 软件 PaDEL-Descriptor (版 本 号 2.15) 计算 获得 ，929 个 0D-2D 结 
构 参 数 描述 符 通 过 Dragon 描述 子 软件 (版 本 号 5. 4) 计算 获得 。 所 有 关于 QSAR 模型 统计 
学 算法 实现 、 变 量 选 择 、 模 型 验证 及 应 用 域 计 算 都 是 在 R 语言 平台 (版 本 号 2.15.3) 上 完 
成 。 其 中 统计 学 方法 的 参数 优化 、 数 据 拟 合 、 变 量 选 择 、 交 叉 校 验 及 对 模型 外 化 合 物 的 预测 
都 是 通过 R 语言 中 以 caret 为 代表 的 一 系列 程序 包 完 成 ， 这 些 程序 包 的 正确 性 和 可 靠 性 得 到 
广泛 验证 和 认可 ; 关于 模型 应 用 域 的 计算 分 析 及 整个 建 模 过 程 的 组 合 、 结 果 整 合 对 比 等 步骤 
则 是 自己 编制 R 语言 程序 来 完成 。 这 样 既 保证 了 建 模 过 程 中 统计 学 算法 的 严谨 和 可 靠 ， 又 
通过 对 各 种 方法 和 步骤 的 组 合 ， 提 高 了 程序 执行 的 灵活 性 ， 而 且 可 根据 需要 对 自 定义 的 应 用 
域 方法 进行 实现 和 分 析 。 

8. P450 CYP2D6 抑制 性 

Xt P450 CYP2D6 抑制 性 数据 集 采 用 分 子 指纹 及 Dragon 描述 子 结合 六 种 不 同 的 统计 学 
方法 分 别 建立 QSAR 模型 。 另 外 ， 为 考察 重要 变量 的 建 模 效果 ， 对 每 组 描述 子 分 别 采 用 
PLSVarimp 方法 对 变量 重要 度 排 序 ， 各 自选 择 前 30 个 重要 变量 结合 六 种 统计 学 方法 建 模 。 
d 9-39 给 出 各 QSAR 模型 的 预测 统计 结果 ， 最 后 三 列 为 对 应 描述 子 30 个 重要 变量 建 模 的 预 
测 结果 。 图 9-23 与 表 9-40 对 应 ， 为 各 模型 预测 结果 对 比 图 。 


Dragon 描述 子 及 三 种 分 子 指纹 结合 六 种 不 同 建 模 方法 对 P450 CYP2D6 抑制 性 的 QSAR 




































































































































































模型 预测 结果 
SE SP Q Acc Q Acc 
p AUC AUC 
een wa M NS J/% | /% 
Dragon-SVM 196 89.4 90.9 92.1 90.1 0. 957 92.0 88.6 0. 951 


Dragon-RF 196 88.3 88. 7 91.3 88.5 0. 956 90. 3 87.3 0. 948 
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统计 学 方法 的 建 模 预 测 结 果 还 是 有 一 定 的 差别 。 对 模型 方法 而 言 ， 决 策 树 RPart 方法 的 结果 
要 弱 于 其 他 方法 ， 而 支持 向 量 机 (SVM) 和 随机 森林 RFE) 方法 在 不 同 的 描述 子 情况 下 都 
有 比较 好 的 预测 结果 ， 尤 其 是 支持 向 量 机 方法 ， 其 在 多 数 情 况 下 结果 优 于 其 他 方法 。 偏 最 小 
二 乘 方法 (PLS) 和 神经 网 络 (NNET) 的 结果 上 
置 。 开 -最 近邻 方法 COK-NNO 则 在 不 同 描述 子 情况 下 建 模 的 结果 差异 较 大 。 而 对 比 不 同 描述 


子 ， 可 以 看 到 采 月 

































































较 接 近 ， 在 六 种 模型 方法 中 处 于 居中 的 位 


H Estate 时 的 预测 结果 在 不 同情 况 下 都 比 其 他 描述 子 差 .这 可 能 是 由 于 Es- 


tate 的 初始 描述 子 只 有 24 个 ， 其 包含 的 信息 量 不 足以 建立 结构 同 P450 CYP2D6 性 质 准确 相 























关 的 关系 模 








型 。 而 MACCS、PubChem 和 Dragon 描述 子 之 间 没 有 很 显著 差别 ， 特 别 是 用 








SVM, RF, PLS 和 NNET 四 种 建 模 方法 时 ,没有 出 现 一 种 描述 子 在 各 种 情况 下 都 优 于 其 他 


描述 子 的 人 情况。 选择 30 个 重要 变量 寻 
在 对 测试 集 的 预测 结果 要 稍 弱 于 训练 集 交 叉 校 验 的 预测 结 


重要 性 。 


9. Ames 致 突变 性 研究 

































































E 模 没有 使 各 模型 预测 结果 有 显著 下 降 。 而 大 部 分 模型 


， 说 明 进 一 步 分析 模 型 应 用 域 的 


对 Ames 致 突变 性 数据 集 采用 分 子 指纹 及 Dragon 描述 子 结 合 六 种 不 同 的 统计 学 方法 分 
别 建立 QSAR 模型 。 表 9-41 给 出 各 QSAR 模型 的 预测 统计 结果 ， 其 中 最 后 三 列 为 对 应 描述 
子 30 个 最 重要 变量 建 模 的 预测 结果 。 图 9-24 与 表 9-41 相对 应 ， 为 各 模型 预测 结果 对 


比 图 。 


























SE SP Acc Acc 

建 模 方法 nvar /% /% /% AUC /% AUC 
Dragon-K-NN 96 86.8 87.5 91.3 87.2 0. 935 89.7 87.5 0. 935 
Dragon-PLS 96 89.0 87.8 89.1 88.4 0. 940 88.6 85.3 0. 923 
Dragon-RPart 96 85.7 83.3 84.4 84.5 0. 851 82.9 84. 7 0. 869 
Dragon-NNET 196 88.8 88.5 89.9 88. 7 0. 939 91. 7 87.6 0. 932 
MACCS-SVM 115 87.9 89.8 90.3 88.8 0. 948 90. 6 88.4 0. 938 
MACCS-RF 5 87.4 90.5 91.6 88.9 0.957 90.1 CY. 0. 945 
MACCS-K-NN 5 87.5 88.3 90.3 87.9 0. 945 88.7 86.7 0. 928 
MACCS-PLS 5 86.9 87.3 89.7 87.1 0. 935 89.6 86.7 0. 927 
MACCS-RPart 5 85.9 87.2 86.1 86.5 0. 899 86.6 86.1 0. 887 
MACCS-NNET 115 86.7 89.2 88.9 88.0 0. 939 89.3 87.1 0. 924 
PubChem-SVM 3: 88.7 90. 7 91.1 89. 7 0. 960 91.0 89.5 0. 945 
PubChem-RF 341 89.0 90. 0 90.0 89.5 0. 960 89.9 88.8 0. 949 
PubChem-K -NN 341 86.7 86.8 88.3 86.8 0. 934 87.9 86.7 0. 936 
PubChem-PLS 341 87.3 89.8 90.4 88.5 0. 946 90.0 86.9 0. 933 
PubChem-RPart 341 87.1 76.1 86.0 81.7 0. 816 87.1 84.5 0. 881 
PubChem-NNET 341 87.8 89.8 90.4 88.8 0. 949 90.1 86.9 0. 932 
Estate-SVM 24 83.1 88.7 86.4 85.9 0. 928 86.4 85.9 0. 928 
Estate-RF 24 84.3 89.0 88.4 86.6 0. 934 88.4 86.6 0. 934 
Estate-K -NN 2! 78.8 91.4 86.3 85.0 0. 918 86.3 85.0 0. 918 
Estate-PLS 24 80.8 88.8 84.6 84. 7 0.917 84.6 84. 7 0. 917 
Estate-RPart 24 83. 4 85.8 84.3 84.6 0. 881 84.3 84.6 0. 881 
Estate-NNET 24 80.9 89.5 84.4 85.1 0. 921 84.4 85.1 0. 921 

由 表 9-40 和 图 9-23 可 以 看 到 ， 在 建立 P450 CYP2D6 的 QSAR 模型 时 ， 不同 描 述 子 和 
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Dragon MACCS PubChem Estate Dragon MACCS PubChem Estate 
BXRT- 描述 子 
(a) (b) 
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EX EX 
8 3 
x x 
85+ 85+ 
80 E L L L L 80 E L L L L 
Dragon MACCS PubChem Estate Dragon MACCS PubChem Estate 
WAF 描述 子 
(c) (d) 


四 组 描述 子 结合 六 种 建 模 方法 的 P450 CYP2D6 模型 预测 结果 对 比 
-o SVM; = K-NN; œ RPart; =— RF; -e- PLS; -9- NNET 
Ca) 模型 交叉 校 验 的 总 预测 正确 率 ; (b) 模型 对 测试 集 的 总 预测 正确 率 ; 
(c) 选 变量 后 模型 交叉 校 验 的 总 预测 正确 率 ;(d) 选 变量 后 模型 对 测试 集 的 总 预测 正确 率 


Dragon 描述 子 及 三 种 分 子 指纹 结合 六 种 不 同 建 模 方法 对 Ames 致 突变 性 的 SAR 模型 预 











测 结果 

建 模 方法 nvar SE/% SP/% Q/% Acc / 96 AUC 0/96 Acc / 96 AUC 
Dragon-SVM 175 81.4 66.5 TT. 1 74.8 0. 819 80.8 76.5 0. 826 
Dragon-RF 75 83.9 62.4 74.6 74.4 0. 820 76.2 75.3 0. 824 
Dragon-K -NN 175 81.1 53. 6 72.6 68. 9 0:751 TIT 74.0 0. 800 
Dragon-PLS 75 79.9 62.9 74. 7 72.4 0. 785 78.3 73.6 0. 800 
Dragon-RPart 175 12.9 63. 5 71.4 68.8 0. 719 11.5 69.5 0. 734 
Dragon-NNET 75 82.9. 62.3 76.3 73:5 0. 802 79.6 75.0 0. 818 
MACCS-SVM 113 83.6 66.5 79.5 76.1 0. 831 78.0 73.2 0. 797 
MACCS-RF 3 81.6 67.0 78.2 75.2 0. 833 76.6 73.1 0. 809 
MACCS-K-NN 113 82.5 57.0 15:3 71.2 0. 780 76.0 70.6 0. 768 
MACCS-PLS 3 80.3 62.6 74.8 72 0. 775 75.4 71.2 0. 771 
MACCS-RPart 113 81.3 58.4 74.8 71.2 0. 740 73.6 70.7 0. 739 
MACCS-NNET 3 82.6 61.6 75.5 73.3 0. 796 74. 5 71.1 0. 777 
PubChem-SVM 300 81.2 66.8 TT. 74.8 0. 824 76. 7 72.9 0. 784 
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建 模 方法 nvar SE/% SP/% Q/% Acc/% AUC Q/% Acc / 96 AUC 
PubChem-RF 300 80. 7 70.1 71.2 76.0 0. 836 76.1 73.3 0. 788 
PubChem-K -NN 300 80.4 55.8 72.2 69.5 0.774 73.6 69.0 0. 760 
PubChem-PLS 300 80.0 63.2 74.2 72.6 0. 789 73.2 67.2 0. 749 
PubChem-RPart 300 T4. 51.7 71.1 66.2 0. 719 72.5 67. 6 0. 731 
PubChem-NNET 300 81. 64.2 75.4 73.8 0. 809 74.0 71.2 0. 771 
Estate-SVM 9 75.6 63. 7 72.3 70.3 0. 770 72.3 70.3 0. 770 
Estate-RF 19 74.9 65.8 73.4 70.9 0. 771 72.8 Thl 0. 772 
Estate-K -NN 19 74.2 57.0 71.4 66. 6 0. 726 71.4 66. 6 0. 726 
Estate-PLS 19 74.5 61.2 70.3 68. 7 0. 743 70.3 68. 7 0. 743 
Estate-RPart 19 81.0 47.6 69. 6 66.2 0. 700 69.6 66. 2 0. 700 
Estate-NNET 19 717.9 56.5 68.3 68.4 0. 741 68.3 68.4 0. 741 
85r 85r 
80r 80 
x x 
8 75$ 8 75 
x~ x 
e— -—- 
70r 70 
65r i L 1 L 65 C L L L L 
Dragon MACCS PubChem Estate Dragon MACCS PubChem Estate 
描述 子 苗 述 子 
(a) (b) 
85r 85- 
80r 80 
x x 
$9 TIF S 75 
In] o 
^d x 
70r 70 
65[ n j 1 1 65 C k 1 1 L 
Dragon MACCS PubChem Estate Dragon MACCS PubChem Estate 
描述 子 B3 T- 
(c) (d) 


各 描述 子 结合 不 同 统计 学 方法 的 Ames 性 质 模型 预测 结果 对 比 
-o- SVM; -- K-NN; -4- RPart; 3 RF; -e- PLS; 一 NNET 

Ca) 模型 交叉 校 验 的 总 预测 正确 率 ; (b) 模型 对 测试 集 的 总 预测 正确 率 ; 

量 后 模型 交叉 校 验 的 总 预测 正确 率 ; (d) 选 变量 后 模型 对 测试 集 的 总 预测 正确 率 
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(o 选 














从 表 9-41 和 图 9-24 的 结果 对 比 可 以 看 到 ， 在 建立 Ames 致 突变 性 数据 的 SAR 模型 时 ， 
不 同 描述 子 和 统计 学 方法 的 建 模 预 测 结 果 具 有 一 定 的 差别 。 与 P450 CYP2D6 模型 情况 类 


似 ， 决 策 树 (RPart) 和 天 -最 近邻 方法 在 大 多 数 情 况 下 ， 预 测 结果 弱 于 其 他 方法 。 而 支持 向 
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量 机 和 随机 森林 仍然 是 大 多 数 情况 下 预测 结果 相对 更 好 和 更 稳定 的 两 种 方法 。 就 四 种 不 同 描 
述 子 而 言 ，Estate 的 模型 结果 仍 比 其 他 描述 子 差 。 其 他 三 种 描述 子 在 未 选 变量 建 模 时 ， 结 果 
相差 不 大 。 而 在 这 组 模型 中 ，Dragon 描述 子 在 选 变量 后 建 模 的 预测 结果 要 稍 优 于 选 变量 前 ， 
也 稍 优 于 分 子 指纹 选 变量 后 的 结果 ， 说明 选 出 的 Dragon 描述 子 对 于 解释 和 预测 该 A mes S& 
突变 性 数据 效果 更 好 。 男 外 ， 对 比 模型 交叉 校 验 和 测试 集 预测 的 结果 ， 可 以 看 到 测试 集 预测 
准确 性 下 降 ， 考 虑 到 测试 集 相 对 训练 集 的 庞大 的 分 子 容量 ， 这 也 是 合乎 情理 ， 也 说 明 进 一 步 
分 析 模 型 应 用 域 的 重要 性 。 

近年 来 ， 随 着 分 子 生物 学 、 计 算 机 科学 和 3D-QSAR 的 迅速 发 展 ， 使 得 计算 机 辅助 药物 
设计 在 新 药物 开发 中 起 到 越 来 越 重 要 的 作用 。 按 照 是 否 已 知 受 体 的 三 维 结构 ， 可 把 这 些 方法 
分 为 两 大 类 ， 一 类 是 直接 药物 设计 ， 用 于 受 体 靶 点 三 维 结构 已 知 的 情况 下 ， 研 究 药 物 与 受 体 
的 相互 作用 ， 根 据 受 体 受 点 的 形状 和 性 质 设 计 新 的 药物 ， 如 对 DHFR 抑制 剂 、 人 体 免 疫 缺 
陷 病 毒 (HIV-1) 和 蛋白酶 抑制 剂 、5- 羟 色 胶 (5-HT)〉 受 体 持 抗 剂 等 的 研究 ; 男 一 类 是 间接 
药物 设计 ， 当 受 体 的 三 维 结构 未 知 时 ， 采用 对 一 组 具有 类 似 活性 的 化 合 物 建立 定量 结构 - 活 
性 关系 模型 ， 根 据 QSAR 计算 结果 的 指导 ， 药 物化 学 家 可 以 更 有 目的 性 地 对 生理 活性 物质 
进行 结构 改造 。CoMFA 和 CoMISA 是 应 用 最 广泛 的 合理 药物 设计 方法 之 一 ， 这 种 方法 认 
为 ， 药 物 分 子 与 受 体 间 的 相互 作用 取决 于 化 合 物 周围 分 子 场 的 差别 ， 以 定量 化 的 分 子 场 参数 
作为 变量 ， 对 药物 活性 进行 回归 分 析 便 可 以 反映 药物 与 生物 大 分 子 之 间 的 相互 作用 模式 进而 
有 选择 地 设计 新 药 。 

另 一 方面 ，3D-QSAR 发 展 至 今 , 已 被 称 为 计算 机 辅助 农药 设计 的 基本 手段 与 分 析 方 
法 。 同 时 ， 在 生物 化 学 、 生 物 医 学 和 生物 毒 理学 方面 ，3D-QSAR 可 用 于 研究 酶 的 活性 、 生 
物体 抗 病毒 能 力 的 强 弱 、 化 合 物 的 致癌 致 畸 性 等 。 此 外 ，QSAR 还 可 用 于 模拟 污染 物 对 酶 、 
生物 作用 的 动力 学 过 程 ， 具 体 来 说 ，3D-QSAR 已 用 来 研究 多 种 酶 (如 水 解 酶 、 氧 化 还 原 
酶 、 连 接 酶 ) 的 作用 物 和 抑制 剂 ， 受 体 (如 5-HT 受 体 、GHRH 受 体 等 ) 和 运输 载体 。 此 
外 ，3D-QSAR 在 肿瘤 学 、 抗 菌 剂 、 新 陈 代谢 方面 也 有 一 些 应 用 。 

在 环境 科学 方面 的 应 用 发 展 也 很 迅速 ， 它 们 被 用 来 模拟 持久 性 有 机 物 在 空间 上 的 迁移 ， 
如 3D-QSAR 模拟 多 环 芳烃 由 内 陆 向 偏远 地 区 的 迁移 及 3D-QSAR 模拟 二 吨 英 在 我 国 的 迁移 。 
值得 提出 的 是 ， 利 用 3D-QSAR 解决 环境 化 学 问题 才刚 刚 起 步 。 目 前 ， 对 于 一 些 除 草 剂 n 
光 系 统 PSI) 抑制 剂 、 握 基 内 烯 酸 酯 类 化 合 物 、 光 合作 用 抑制 剂 啼 啶 硫 葵 甲酸 类 化 合 
物 等 , 已 研究 了 其 三 维 定量 构 效 关系 。 如 何 将 3D-QSAR 研究 深入 ， 在 环境 化 学 中 发 挥 更 大 
作用 ， 是 迫切 需要 解决 的 问题 。 如 将 3D-QSAR 与 传统 QSAR 相 结 合 ， 研 究 污染 物 水 解 、 光 
解 、 生 物 降 解 以 及 土壤 吸附 等 环境 行为 ,将 有 助 于 更 加 深入 地 探讨 这 些 环境 行为 的 作用 机 
理 。 同 时 ， 对 于 广泛 使 用 却 污染 严重 的 化 合 物 〈 如 除草 剂 、 杀 虫 剂 、 洗 涤 剂 等 )， 在 已 有 的 
2D-QSAR 研究 基础 上 ， 进 行 3D-QSAR 分 析 ， 进 而 了 解 化 合 物产 生 毒性 的 部 位 和 发 挥 用 途 
的 机 制 ， 挑 选 出 高 效 低 毒 的 化 合 物 ， 可 达到 减少 污染 的 目的 。 使 用 3D-QSAR 的 方法 ， 还 可 
以 了 解 污 染 物 在 与 蛋白 质 和 核酸 等 生物 大 分 子 结合 、 作 用 〈 从 而 导致 癌变 等 病理 情况 ) 的 过 




















































































































































































































程 中 其 三 维 结构 所 扮演 的 角色 ， 更 加 深入 地 研究 污染 物 在 生物 体内 的 作用 途径 ， 这 对 揭示 人 
类 的 衰老 、 疾 病 机 制 ， 维 护 人 类 健康 将 发 挥 重要 作用 。 
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人 工 智 能 与 化 学 专家 系统 是 一 个 综合 性 很 强 的 科技 领域 ， 可 以 说 是 本 书 中 前 述 方法 的 一 
个 逻辑 性 的 集合 。 本 书 将 其 列 为 一 章 ， 主 要 初 囊 是 想 对 其 在 化 学 计量 学 研究 中 的 地 位 给 予 必 
要 的 强调 ， 男 一 方面 ， 因 为 人 工 智 能 与 化 学 专家 系统 一 般 都 需 大 量 引 用 不 同化 学 领域 知识 ， 
需要 建立 数据 库 ， 有 其 特殊 性 的 一 面 。 本 章 将 主要 介绍 一 些 常 用 的 人 工 智 能 与 化 学 专家 系统 
的 基本 要 素 ， 在 此 基础 上 还 将 介绍 一 些 如 何 构建 化 学 专家 系统 的 基本 思路 和 框架 。 对 于 如 何 
具体 构造 数据 库 等 细节 知识 本 书 将 不 作 详 细 论述 ， 所 以 ， 原 则 上 说 来 ， 本 章 将 只 有 少量 的 计 
算 机 程序 。 因 考虑 到 目前 在 化 学 研究 领域 中 已 有 不 少 有 名 的 专家 系统 ， 所 以 选择 一 些 有 代表 
性 的 给 出 必要 的 说 明 ， 以 供 读者 参考 。 

人 工 智 能 是 一 个 综合 性 的 科技 领域 。Hippel5 建议 将 人 工 智 能 定义 为 求知 能 力 的 集合 ， 
这 种 能 力 是 指 获 取 知 识 并 用 于 解决 新 的 〈 未 知 的 ) 理论 的 和 /或 实际 问题 。 而 人 工 智 能 则 是 
指 借助 技术 或 理论 的 手段 ， 应 用 数学 方法 和 /或 数理 逻辑 研究 智能 的 各 个 方面 的 问题 54 。 简 
言 之 ， 人 工 智能 就 是 研究 如 何 用 人 工 的 方法 与 技术 ， 即 利用 计算 机 等 工具 ， 模 拟 、 延 伸 和 扩 
张 人 的 智能 ， 实 现 某 些 机 器 思维 或 脑力 劳动 自动 化 中 。 人 工 智能 是 计算 机 和 科学 技术 发 展 
的 前 沿 领域 ， 化 学 计量 学 很 自然 地 就 成 为 它 的 应 用 领域 之 一 。 化 学 量 测 及 其 数据 解析 中 ， 如 
何 将 各 类 分 析 仪 器 量 测 所 得 的 数据 转化 为 有 用 的 化 学 信息 ， 传 统 上 是 依靠 化 学 家 、 分 析 化 学 
家 运用 其 智能 、 专 业 知 识 、 经 验 技巧 及 通过 各 类 计算 来 完成 的 ， 能 和 否 设 计 计 算 机 的 专家 系 
统 ， 模 拟 化 学 家 和 分 析 化 学 家 的 脑力 劳动 ， 这 就 是 化 学 计量 学 所 涉及 的 人 工 智能 的 任务 。 

本 书 前 述 的 方法 一 般 都 是 数值 运算 ， 而 人 工 智能 所 涉及 的 计算 机 程序 则 更 多 地 涉及 符号 
与 逻辑 处 理 过 程 。 在 化 学 领域 中 ， 如 何 从 光谱 图 形 〈 包 括 红 外 光谱 、 质 谱 、 核 磁 共 振 谱 等 ) 
出 发 ， 推 断 化 合 物 的 结构 ， 这 些 远 不 是 依靠 单一 数值 运算 可 解决 的 问题 。 人 工 智 能 与 一 般 数 
值 运算 的 这 一 区 别 ， 表 现在 人 工 智 能 的 计算 机 程序 用 的 是 启发 式 知 识 GERD 与 启发 式 搜索 
方法 ， 它 借助 于 经 验 规则 ， 或 称 “ 启 发 式 ” 规 则 ， 以 缩小 搜索 的 范围 。 实 际 上 ， 人 类 专家 在 
处 理 问 题 时 ， 正 是 这 样 做 的 。 

人 工 智 能 的 另 一 特征 是 大 量 引 用 领域 知识 。 化 学 计量 学 中 的 人 工 智 能 所 涉及 的 领域 知识 
当然 是 化 学 的 专门 知识 ， 这 就 涉及 在 建立 数据 库 的 基础 上 ， 再 建立 知识 库 、 知 识 表 达 及 推理 
方式 。 正 如 Nilsson MACL: “一 个 人 工 智 能 产生 式 系统 的 要 素 是 : 一 个 综合 数据 库 、 一 组 
产生 式 规则 和 一 个 控制 系统 。” 值 得 指出 的 是 ， 当 前 在 人 工 智 能 的 研究 中 ， 往 往 主张 将 数值 
方法 与 基于 知识 推理 的 逻辑 方法 和 启发 式 搜索 方法 进行 柔性 集成 ， 可 望 增强 专家 系统 的 解析 
功能 。 本 音 将 主要 介绍 常用 的 搜索 方法 及 有 关 知 识 表 达 与 推理 规则 ， 继 在 此 基础 上 介绍 儿 个 
化 学 专家 系统 。 


































































































































































































































































































































































































第 一 节 ”启发 式 分 类 与 搜索 方法 


启发 式 知 识 的 应 用 及 启发 式 搜索 是 专家 系统 不 同 于 其 他 数值 计算 (包括 模式 识别 〉 的 特 
征 之 一 。 启 发 式 知 识 是 一 些 不 易 精 确 地 用 数学 语言 描述 的 知识 ， 化 学 专家 系统 用 到 化 学 家 的 
经 验 ， 例 如 谱 图 解析 、 结 构 识 别 、 合 成 路 线 设计 等 均 带 有 假设 的 色彩 。 启 发 式 知 识 可 定义 
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为 : 有 关 目 前 问题 状况 与 合适 的 解 之 间 的 经 验 性 知识 。 而 启发 式 分 类 是 将 不 同 分 类 层次 上 相 
互联 系 的 概念 ， 用 不 确定 联想 机 制 结合 起 来 ， 启 发 式 分 类 模型 描述 了 专家 系统 知识 和 推理 形 
式 的 特征 ， 表 达 了 经 验 性 知识 的 组 织 和 使 用 。 

用 人 工 智能 解决 一 个 问题 ， 常 可 说 是 在 各 种 不 同 的 可 能 性 之 间 进 行 选择 ， 或 称 “搜索 ”， 
这 个 搜索 空间 可 以 树 的 形式 表述 。 图 10-1 就 是 这 种 搜索 树 六 。 




















搜索 树 


在 化 学 中 典型 的 问题 是 从 化 合 物 A 出 发 ， 如 何 制 取 化 合 物 D? 这 可 能 有 者 干 途径 ， 但 
不 可 能 由 A 直接 制备 D， 必 须 经 过 其 他 中 间 步 又， 而 我 们 的 目标 是 要 找到 最 简捷 的 途径 。 
10-1 可 称 为 状态 图 ， 问 题 的 解 的 路 径 从 初始 状态 〈 根 结 点 ) 经 过 树 的 分 支 到 达 目 标 状 态 
(终端 结 点 )。 对 于 大 的 实际 问题 ， 要 绘 出 这 样 的 显示 图 是 十 分 困难 的 ， 因 此 ， 搜 索 树 常 是 
“ 隐 式 ”的 ， 在 向 目标 搜索 的 进程 中 ， 计 算 机 程序 将 自动 产生 各 种 可 能 的 分 支 和 结 点 ， 这 里 
可 区 分 正 向 推理 与 逆向 推理 两 种 情况 ， 即 在 由 起 始 状态 A 向 目标 状态 D 过 渡 时 ， 图 10-1 是 
正 向 推理 ， 但 也 可 以 道 向 由 目标 状态 朝 起 始 状态 搜索 〈 见 图 10-2) 。 正 向 推理 亦 称 是 数据 推 
动 的 ， 逆 向 推理 又 称 目 标 引 导 的 ， 在 用 人 工 智能 辅助 有 机 合成 路 线 设计 时 ， 就 采用 逆向 推 









































逆向 搜索 树 
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理 。 对 于 很 简单 的 问题 ， 直 接 的 方法 是 进行 “盲目 搜索 ”"， 这 当然 是 很 费时 的 办 法 ， 让 计算 
机 依次 产生 并 检验 各 结 点 可 能 出 现 的 分 支 ， 随 着 搜索 过 程 的 进行 ， 搜 索 树 不 断 长 大 。 以 图 
10-1 为 例 ， 每 个 结 点 可 赋予 一 个 水 平 ， 根 结 点 位 于 0 水 平 ， 接 着 是 水 平 1， 依 此 类 推 。 水 平 
的 号 次 代表 了 搜索 的 深度 。 这 里 介绍 两 种 盲目 搜索 方法 。 


一 、 广 度 优先 搜索 


这 种 搜索 方法 是 从 根 结 点 出 发 ， 依 次 在 每 一 水 平生 成 并 检验 搜索 树 的 各 结 点 ， 在 一 个 水 
平 的 各 结 点 未 检验 完 ， 即 沿 广度 进行 的 “横向 扫描 ”未 完成 前 ， 不 开始 生成 与 校 验 更 深水 平 






































的 结 点 〈 即 暂 不 “扩展 ”)。 这 里 ,假设 同一 水 平 各 结 点 对 问题 的 求解 是 等 价 的 ， 只 是 按 各 
结 点 生成 的 先后 次 序 ， 先 生成 的 先 检验 ， 沿 “广度 ”遍历 所 有 结 点 ， 然 后 才 按 原 次 序 将 先生 


成 的 结 点 先 往 后 扩展 ， 故 称 为 广度 优先 搜索 法 。 这 种 搜索 法 总 是 能 找到 以 最 简单 步 又 达到 目 
标的 路 线 ， 但 不 一 定 是 最 经 济 的 解决 问题 的 办 法 ， 这 一 点 在 下 面 讨 论 启 发 式 搜 索 时 将 再 
论 及 。 


二 、 深 度 优 先 搜索 

















此 法 进行 搜索 时 ， 由 当前 检验 的 结 点 作为 父 结 点 生成 下 一 级 子 结 点 ， 这 样 由 父 结 点 生成 
子 结 点 的 过 程 继续 下 去 ， 看 每 次 检验 是 否 出 现 目标 结 点 ， 若 未 出 现 ， 再 扩展 最 晚 生成 的 子 结 
点 ， 如 此 下 去 ， 治 着 最 晚 生成 的 子 结 点 分 支 ， 逐 级 “纵向 ”深入 发 展 ， 故 此 法 称 为 深度 优先 
搜索 法 。 在 到 达 顶 点 仍 未 找到 目标 结 点 时 ， 往 后 “回溯 ”， 在 前 一 个 分 支 处 继续 沿 深度 搜索 。 








深度 优先 搜索 不 能 保证 一 定 找到 最 短路 径 的 目标 结 点 ， 因 为 如 果 目 标 结 点 不 在 最 晚 生 成 的 子 
结 点 分 文中 ， 且 该 分 支 为 无 穷 分 支 ， 则 搜索 过 程 将 无 限制 地 往 下 进行 ， 即 搜索 失败 。 深 度 优 
先 搜索 法 有 可 能 在 编制 程序 时 只 存储 当前 搜索 的 路 径 ， 对 计算 机 内 存 要 求 较 低 。 为 改进 深度 
优先 搜索 法 ， 有 人 引入 “搜索 深度 限制 ”， 当 沿 “ 最 晚 ” 分 文 纵 向 搜索 达到 一 定 深度 时 ， 如 
仍 未 出 现 目标 结 点 ， 则 返回 对 “次 晚 ” 分 支 进 行 搜索 ， 这 种 办 法 称 有 界 深度 优先 搜索 法 。 

上 述 讨论 的 盲目 搜索 法 是 正 向 推理 ， 也 可 使 用 逆向 推理 ， 例 如 广度 优先 逆向 推理 法 ， 对 
只 要 求 少量 搜索 的 问题 ， 往 往 可 用 这 种 办 法 。 


三 、 启 发 式 搜索 方法 


总 的 说 来 ， 前 面 讨论 的 盲目 搜索 没有 用 到 所 涉及 问题 的 领域 知识 来 指导 搜索 。 对 于 复杂 
的 实际 问题 ， 如 化 学 反应 的 设计 ， 这 种 方法 常常 无 法 奏效 ， 因 为 排列 组 合 太 多 ， 出 现 “ 组 合 
爆炸 >， 如 果 平 均 每 个 结 点 可 有 ?7 个 分 支 ， 则 搜索 空间 将 随 深 度 d 的 增加 按 n 关系 增加 。 解 
决 的 办 法 是 尽 可 能 借助 专业 领域 知识 的 帮助 ， 这 是 人 工 智 能 提高 求 问题 解 的 效率 的 基本 诀 
容 ， 实 际 上 人 们 在 日 常生 活 中 也 是 这 样 做 的 。 虽 然 这 样 得 到 的 解 不 一 定 就 是 最 优 解 ， 但 总 是 
在 一 步 步 接近 目标 。 

前 面 叙 述 的 广度 优先 搜索 等 方法 ， 未 考虑 搜索 过 程 中 的 “代价 ”问题 ， 只 要 找到 目标 就 
行 。 如 用 加 权 树 表示 各 支 路 的 代价 ， 可 采用 启发 式 的 代价 驱动 搜索 法 来 求解 代价 最 小 的 路 
径 ， 而 运用 启发 性 知识 一 一 所 求解 问题 的 有 关 知 识 和 经 验 ， 如 有 机 合成 化 学 的 知识 、 合 成 实 
验 的 化 学 专家 的 经 验 ， 可 得 到 解 的 出 现 规律 及 解 的 某 些 性 质 ， 估 计 将 要 付出 的 代价 等 ， 为 代 
价 最 小 的 路 径 求 解 带 来 很 多 启发 性 提示 。 运 用 局 发 式 搜 索 的 一 种 方法 是 局 部 择优 搜索 法 ， 即 
搜索 过 程 中 根据 领域 知识 ， 在 一 个 局 部 点 各 可 能 路 径 中 选择 最 有 希望 和 逼近 目标 结 点 的 方向 ， 
例如 爬山 ， 选 最 陡 上 升 方向 稚 ， 即 沿 梯度 函数 最 大 方向 搜索 ， 这 在 只 有 单 峰 极 值 的 情况 下 能 
奏效 。 和 否则 ， 可 用 全 局 择优 搜索 法 ， 在 同一 级 所 有 子 结 点 中 进行 比较 择优 ， 同 时 ， 要 对 当前 
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结 点 已 付出 的 代价 8 ， 与 根据 启发 信息 估计 达到 目标 结 点 还 需 付 出 的 代价 h 进行 权衡 ， 如 g 
的 权 较 大 ， 搜 索 过 程 应 倾向 于 广度 优先 搜索 ， 强 调 横向 扫描 ; 如 4 的 权 较 大 ， 搜 索 过 程 应 
倾向 于 深度 优先 搜索 ， 强 调 纵向 深入 。 运 用 这 样 的 指导 思想 ， 能 以 较 低 代 价 、 较 高 效率 搜索 
到 最 优 解 。 

在 结束 有 关 启 发 式 分 类 与 搜索 的 讨论 之 前 ， 还 要 着 重 指出 启发 式 是 不 确定 的 、 基 于 典型 
性 假设 的 、 有 时 不 易 理 解 的 一 种 关系 。 不 确定 性 是 因为 启发 式 认识 跳 过 了 大 量 因 果 关 系 的 中 
间 层 次 ， 而 这 些 中 间 层 次 在 特定 状况 下 可 能 不 成 立 也 可 能 造成 错误 判断 ， 但 正 是 跳 过 了 中 间 
层次 ,问题 的 求解 才 跨 出 了 一 大 步 。 


第 二 节 ”知识 表达 技术 


人 工 智 能 研究 者 早 就 发 现 ， 强 的 智能 与 其 说 是 由 于 推理 功能 强 ， 不 如 说 是 由 于 知识 丰 

富 。 因 此 ， 人 工 智 能 将 知识 视 为 高 效 智能 系统 的 关键 要 素 ， 知 识 的 表达 与 管理 就 成 了 人 工 智 
具有 智能 的 人 或 机 器 能 用 以 其 作出 合理 决策 的 信息 。 

知识 表达 是 指 知识 的 表示 与 描述 ， 亦 即 知识 的 形式 化 或 模型 化 。 
知识 有 有 令 述 型 、 过 程 型 与 控制 型 等 几 种 类 型 。 统 述 型 知识 叙述 关于 系统 的 状态 、 环 境 和 
条 件 ， 问 题 的 构想 、 定 义 、 事 实 等 ;过 程 型 知识 表述 有 关系 统 状态 的 变化 、 问 题 求解 过 程 的 
操作 等 ;控制 型 知识 提供 如 何 选择 相应 的 操作 、 运 算 和 行动 的 信息 。 可 用 于 叙述 型 知识 的 表 
达 方 法 有 逻辑 表达 法 、 语 义 网 络 表 达 法 等 ， 而 能 用 于 表达 过 程 型 知识 同时 又 能 表达 其 他 类 型 
知识 的 表达 方法 ， 最 典型 的 是 产生 式 规 则 表达 法 。 下 面 将 举例 简要 介绍 这 三 种 知识 表达 
方法 。 

一 、 逻 辑 表达 方法 


下 面 是 一 个 逻辑 表达 的 例子 : 
(D Vx Lmetal(x)—>conduct(zx) ]; 


© metal(Ciron ) ; 
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(9 conduct(iron) 。 

此 例 中 Vx [metalCz) conduct Ca) )] 表 示 所 有 的 金属 都 导电 ，metal(iron); 表示 铁 是 
金属 ，conduct(iron) 表 示 铁 导电 ， 故 全 铝 意 义 为 : 所 有 的 金属 都 导电 ， 因 为 铁 是 金属 ， 所 以 
铁 导 电 。 在 此 ，metal(zx ) 表 示 x 是 金属 ， 是 谓词 逻辑 中 的 一 个 原子 谓词 公式 ，z 是 客体 变 
元 ， 它 可 以 有 一 个 定义 域 ， 称 为 客体 域 ， 而 Vz (数学 上 表示 任 取 x) RA “EREI”, K 
示 客 体 域 中 的 所 有 个 体 。 注 意 ， 一 个 谓词 通常 还 可 以 有 若干 个 客体 变 元 ， 如 谓词 p (xi， 
Z2，…，zuw) ， 此 时 谓词 p 称 为 n 元 谓词 。 更 复杂 的 情况 还 有 ， 谓 词 p(x) 中 的 变 元 xz 本 
身 又 可 以 为 一 谓词 (有 点 类 似 函 数 中 的 复合 函数 )， 此 时 称 z 为 一 阶 谓词 ， 而 p (x) 则 称 为 
二 级 谓词 。 所 以 ， 知 识 的 逻辑 表达 通常 是 指 一 阶 谓词 巡 辑 (FOPL) 描述 人 工 智能 问题 。 谓 
词 逻 辑 表达 较 严 讶 精确 ， 具 有 通用 性 ， 接 近 自 然 语言 ， 但 使 用 效率 低 ， 灵 活性 较 差 ， 常 使 推 
理 过 程 宛 长 。 


二 、 语 义 网 络 表达 法 


语义 网 络 表达 是 通过 概念 及 其 语义 关系 用 网 络 图 表达 知识 ， 用 以 描述 样本 、 事 件 、 概 念 
等 的 关系 。 网 络 图 实际 上 是 图 的 一 种 ， 称 有 向 图 ， 有 向 图 中 从 一 个 作为 起 点 的 结 点 到 作为 终 
点 的 结 点 的 线 称 为 弧 。 语 义 网 络 起 初 是 为 描述 人 类 记忆 的 心理 学 模型 提出 的 ， 在 自然 语言 研 
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究 中 ， 表 示 复 杂 句 型 的 语义 很 方便 。 语义 网 络 中 结 点 表示 对 象 、 概 念 或 事件 ， 弧 可 用 不 同方 
式 定 义 ， 这 取决 于 被 表示 的 知识 ， 用 于 表达 化 学 结构 的 普通 弧 有 isa 和 has-part， 例 如 酮 作 
为 一 种 有 机 化 合 物 概念 的 表述 ( 见 图 10-3). IEEE. BW RIE A A AR EDU TEBIXX — Iz ETE 
储 一 次 ， 而 不 是 在 各 个 特定 的 酮 这 样 较 低 层次 上 重复 存储 。 通 过 有 关 弧 含义 的 知识 ， 可 以 搜 
索 网 络 ， 推 出 “了 丁 酮 含有 痰 基 ” 这 样 的 事实 。 这 种 表述 法 在 推理 过 程 涉 及 较 复 杂 的 推理 时 有 
用 ,， 它 较 自然 ， 体 现 了 联想 思维 过 程 ， 表达 语义 关系 知识 效率 较 高 ， 但 没有 侵 辑 方法 严谨 ， 
不 便于 表达 判断 性 知识 及 动态 知识 。 
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酮 作为 有 机 化 合 物 概念 的 语义 网 络 


、 产 生 式 规则 表达 法 


这 是 人 工 智能 用 于 解决 化 学 课题 常用 的 知识 表达 方法 ， 这 种 表达 方法 包含 : 中 存储 有 关 
问题 的 状态 、 人 性 质 的 叙述 性 知识 的 综合 数据 库 ， 或 称 事实 库 ; 外 存 储 有 关 状 态 转 移 等 规则 的 
过 程 性 知识 的 规则 集 或 称 规则 库 ; 名 用 于 选择 控制 策略 ， 将 规则 与 事实 进行 匹配 、 控 制 利用 
知识 推理 求解 问题 的 控制 器 。 

最 简单 的 产生 式 规则 有 如 下 格式 : 























IF Cin THEN ( 则 ) 
前 提 结论 
条 件 行动 
例如 ， 在 借助 化 学 反应 推测 结构 时 ， 可 将 脱水 反应 表示 为 如 下 规则 : 
IF 存在 模式 C 一 C 一 O 
THEN 转换 为 模式 C=C 





这 是 脱 去 一 个 HO 的 结构 COH 原子 均 已 略 去 ) 。 产 生 式 系统 求解 问题 的 过 程 ， 是 使 事实 库 
转移 到 满足 解 的 终止 条 件 的 状态 。 一 条 产生 式 规 则 的 前 提 部 分 可 以 是 能 和 事实 库 进 行 匹配 的 
任何 模式 ， 若 一 条 规则 的 前 提 部 分 被 匹配 ， 则 该 规则 即 属 可 用 ; 使 用 一 条 规则 的 结果 是 得 到 
一 个 结论 或 产生 一 个 行动 (如 将 C—C—0 转化 为 C 一 C)， 这 将 使 事实 库 的 状态 发 生 转 移 。 
控制 器 按 相 应 策略 控制 规则 与 事实 的 匹配 过 程 ， 有 效 地 求解 所 涉及 的 问题 。 

产生 式 系统 具有 通用 性 ， 接 近 人 的 自然 推理 方式 ， 易 为 用 户 理解 。 产 生 式 规 则 可 自由 增 
删 、 修 改 ， 便 于 用 户 自行 加 入 领域 知识 ， 但 简单 的 产生 式 系统 各 规则 独立 ， 求 解 复 杂 问 题 时 
会 出 现 “ 组 合 爆炸 ”>， 因 而 效率 不 高 ， 表 达能 力也 不 够 强 ， 需 进行 扩充 ， 使 其 前 提 不 限于 简 
单 的 事实 而 是 事实 、 情 况 和 条 件 的 综合 模式 。 

除 上 述 三 种 知识 表达 技术 外 ， 还 有 许多 别 的 知识 表述 方法 ， 如 状态 空间 表达 法 ， 将 有 关 
初始 状态 、 目 标 状态 及 由 前 者 达到 后 者 所 需 的 “操作 ”用 符号 形式 表 出 ， 或 用 有 向 网 〈 称 状 
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态 空间 图 ) 表 出 ; 特征 表 表 达 法 ， 即 以 表格 形式 表达 样本 特征 ， 以 用 于 检索 ; 框架 表达 法 ， 
以 各 种 大 、 中 、 小 框架 ， 互相 内 外 骨 套 组 合 表达 状态 变化 与 操作 过 程 ; 与 /或 图 表达 法 ， 这 
是 一 种 超 图 ， 通 常 以 树 的 形式 ， 亦 称 与 /或 树 ， 这 种 表达 知识 的 方法 基于 人 们 求解 问题 时 的 
两 种 思维 方法 。AND BE. 用 于 分 解 ， 将 复杂 的 大 问题 分 解 成 一 组 简单 的 小 问题 ， 将 总 问题 
分 解 为 子 问 题 ， 硅 所 有 的 子 问题 解决 了 ， 总 问题 亦 告解 决 ， 子 问题 解决 不 了 的 又 可 继续 分 解 
( 见 图 10-4); OR 树 : 用 于 变换 ， 将 较 难 的 问题 变换 为 较 易 的 等 价 的 问题 ， 后 者 如 能 解决 ， 
原 有 难题 亦 告解 决 〈 见 图 10-5) 。 实 际 求解 问题 可 兼用 二 法 ， 即 AND/OR 树 表达 法 。 


























复杂 的 大 问题 


简单 的 小 问题 





子 问题 
AND bi 
较 难 的 问题 


容易 的 问题 





O 更 容易 的 问题 


CB on 


知识 表达 仍 是 一 个 人 工 智 能 领域 尚 在 继续 研究 完善 的 领域 ， 如 知识 表达 方式 的 标准 化 、 
不 精确 的 知识 的 表达 、 表 达 效 率 的 评 佑 、 知 识 的 量化 等 方面 都 有 待 完善 。 


第 三 节 ”化 学 专家 系统 简介 


专家 系统 是 人 工 智 能 的 一 个 重要 分 支 。 从 计算 机 人 工 智能 的 角度 分 析 问 题 ， 任 何 用 到 大 
的 化 学 知识 库 的 复杂 的 人 工 智 能 系统 都 可 认 作 化 学 专家 系统 ， 也 就 是 说 ， 用 于 解决 实际 化 学 
问题 的 人 工 智 能 系统 均 是 化 学 专家 系统 ， 可 能 “化 学 知识 系统 ”是 一 个 更 确切 的 名 词 。 

专家 系统 在 化 学 中 的 应 用 极其 广泛 ， 在 谱 图 解析 、 分 离 科 学 、 分 析 方 法 的 选择 、 仪 器 控 
制 等 方面 都 产生 了 很 多 有 名 的 化 学 专家 系统 (参见 表 10-1)。 


国内 外 较 知 名 的 化 学 专家 系统 











































































































系统 名 称 作 者 国 别 内 容 文 BK 
DENDRAL J. Lederberg 美国 TE E ftr: MS, ^C NMR [5.6] 
CHEMICS 佐佐木 慎 一 等 日 本 谱 图 解析 :MS, 3C NMR.!H NMR ,IR [7] 
CASE M. E. Munk 等 美国 谱 图 解析 :3C NMR.IR [8] 
PAIRS H. Woodruff 等 美国 谱 图 解析 :IR [9.10] 
STREC L. A. Gribov 等 原 苏 联 谱 图 解析 :MS, 3C NMR.!H NMR.UV 等 [11] 
CARBON J. Zupan 等 前 南斯拉夫 谱 图 解析 :SC NMR [12] 
卢 佩 章 等 中 国 色谱 专家 系统 [16.17] 
ESESOC 许 禄 等 中 国 谱 图 解析 :83C NMR.MS.IR [13—15] 
PLATO Curry 等 美国 谱 图 解析 :83C NMR.MS.IR [18] 
LHASA W. Kaufman fi FA 有 机 合成 系统 [19] 
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开发 始 于 20 世纪 60 年 代 的 DENDRAL 可 说 是 专家 系统 这 一 人 工 智能 的 主流 分 支 诞 生 
的 一 个 标志 ， 它 由 美国 斯 坦 福 大 学 创建 ， 是 一 个 有 机 分 析 化 学 系统 ， 可 从 量 测 到 的 有 机 化 合 
物 的 质谱 数据 出 发 ， 一 直到 产生 出 化 合 物 的 结构 图 。 现 以 这 一 化 学 专家 系统 为 例 ， 说 明 化 学 
专家 系统 的 基本 结构 。 一 般 说 来 ， 一 个 化 学 专家 系统 应 包括 如 下 组 成 部 分 : 

CD 化 学 知识 库 (或 化 学 知识 源 ) ” 包括 相关 化 学 领域 的 事实 、 与 问题 有 关 的 启发 推理 
等 。DENDRAL 系统 的 知识 库 中 包括 从 实验 测 得 的 质谱 数据 导出 有 关 有 机 化 合 物 分 子 结构 
的 限制 的 规则 (哪些 结构 可 能 存在 ， 哪 些 结构 可 能 不 存在 ); 产生 能 满足 这 些 限 制 的 可 能 结 
构 的 方法 ;从 结构 预测 其 质谱 的 规则 等 。 最 常用 的 表达 化 学 知识 的 方法 是 前 述 产生 式 


















































规则 。 
(2) 推理 步骤 或 控制 结构 ”用 于 利用 化 学 知识 解决 相关 问题 。DENDRAL 系统 采用 癌 
前 搜索 系统 。 


(3) 工作 内 存 区 或 称 “ 全 局 数据 库 ” 存储 所 处 理 的 问题 的 当前 信息 ， 包 括 输入 的 数 
据 、 已 得 到 的 结果 等 。DENDRAL 系统 工作 时 的 全 局 数据 库 ， 是 质谱 数据 、 产 生 的 结构 限 
制 、 可 能 的 结构 等 。 
从 化 学 专家 系统 的 结构 ， 可 以 看 出 它 明 显 不 同 于 前 述 的 一 般 化 学 计量 学 数值 计算 方法 之 
处 ， 是 将 有 关 的 一 般 化 学 知识 、 规 则 与 当前 课题 的 信息 〈 输 入 数据 ) 以 及 用 一 般 知 识 解决 当 
前 问题 的 方法 CAU AT EDSRO 明确 分 开 ， 这 样 ， 化 学 专家 系统 易于 接受 新 的 化 学 知识 并 适应 
新 的 情况 ， 以 解决 新 的 问题 。 化 学 专家 系统 的 基本 结构 示 于 图 10-6. 
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(系统 状态 ) 
化 学 专家 系统 的 基本 结构 





要 构造 一 个 化 学 专家 系统 ， 还 必须 满足 下 述 前 提 : 中 至 少 目前 有 化 学 专家 能 很 好 地 解决 
涉及 的 问题 ; 包 化 学 专家 解决 涉及 的 问题 应 是 来 源 于 特殊 知识 、 判 断 能 力 与 经 验 ; 加 化 学 专 
家 应 能 解释 他 所 用 的 特殊 知识 、 经 验 识 窍 和 解决 问题 的 方法 ; 加 涉及 的 任务 应 有 明确 的 应 用 
对 象 与 范围 ， 由 于 构造 一 个 专家 系统 相当 费时 ， 这 一 考虑 是 十 分 必要 的 。 化 学 家 和 计算 机 专 
家 合作 构造 的 解析 质谱 及 其 他 波谱 的 DENDRAL 等 化 学 专家 系统 ， 是 在 具备 相应 前 提 条 件 
下 构造 的 。 

以 下 我 们 将 简要 介绍 几 个 化 学 专家 系统 。 


一 、DENDRAL 质谱 、 核 磁 共 振 谱 图 解析 专家 系统 


DENDRAL 质谱 、 核 磁 共 振 谱 图 解析 专家 系统 由 诺 贝 尔 奖 获得 者 Lederberg 主持 开发 ， 
可 以 说 是 化 学 专家 系统 ， 也 可 以 说 是 专家 系统 这 一 人 工 智 能 的 主流 分 支 诞 生 的 一 个 标志 。 它 
主要 包括 3 个 子 系统 : @ 启 发 式 DENDRAL 系统 ; @ 结 构 生 成 CONGEN 系统 ; © “Meta- 
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DENDRAL” 系 统 。 下 面 我 们 将 对 这 3 个 子 系统 给 出 简要 介绍 。 

诺 贝尔 奖 获得 者 Lederberg 兽 致力 于 研究 用 拓扑 学 表征 化 学 结构 [5 。 一 个 给 定 的 化 学 成 
分 ， 有 多 少 种 可 能 的 结构 ? Lederberg 曾 用 LISP 语言 编制 递归 算法 研究 了 从 原子 集合 产生 
所 有 的 非 环 形 分 子 结 构 。 启 发 式 DENDRAL 系统 就 包括 了 这 些 非 环 形 和 环形 分 子 结构 的 穷 
举 程序 ， 其 数据 调整 器 从 质谱 图 中 检 出 对 结构 生成 有 重要 意义 的 质谱 峰 ， 预 推理 器 根据 质谱 
峰 进 行 初步 分 析 ， 判 断 化 合 物 属 于 哪 一 类 ; 结构 生成 器 根据 预 推理 器 输出 的 信息 ， 生 成 对 应 
于 质谱 图 的 所 有 可 能 的 分 子 结构 ， 将 其 列 入 可 能 分 子 结构 候选 表 ; 预测 器 给 出 候选 结构 的 预 
测 质谱 图 ， 然 后 将 预测 质谱 图 与 原 谱 图 比较 ,检查 两 者 的 符合 情况 ， 按 评价 函数 决定 其 符合 
程度 ， 以 便 按 符合 程度 输出 候选 分 子 结构 。 

结构 生成 CONGEN (constrained generator， 限 制 发 生 器 〉 系统 ， 于 20 世纪 70 年 代 中 
期 设计 ,以 取代 原 DENDRAL 系统 的 非 环 形 和 环形 的 分 子 结构 的 穷 举 程 序 ， 所 以 ， 
CONGEN 是 一 个 功能 更 强 的 限制 性 的 分 子 结构 生成 器 。 通 过 人 -机 交互 ， 使 用 CONGEN 的 
化 学 家 可 以 随时 方便 地 输入 启发 信息 ， 对 分 子 结构 的 生成 过 程 加 入 约束 条 件 。CONGEN 还 
增加 了 对 立体 异 构 的 考虑 。 新 的 CONGEN 程序 系 按 深 度 优 先 搜索 编制 ， 并 允许 化 学 家 使 用 
时 提前 停止 计算 。 

“Meta-DENDRAL” 系 统 是 一 个 能 够 自动 建立 化 学 知识 库 的 学 习 系 统 ， 这 对 本 身 理论 尚 
不 完善 的 质谱 解析 来 说 有 特别 意义 。 在 质谱 结构 解析 专家 系统 构造 中 ， 如 何 使 质谱 解析 专家 
的 知识 和 经 验 明 确 化 、 系 统 化 ， 表 述 为 产生 式 规则 ， 本 身 就 是 一 个 难题 。“ Meta- 
DENDRAL” 系 统 通 过 向 样品 质谱 学 习 ， 自 动 进行 归纳 处 理 。 下 面 将 举例 给 予 简 要 说 明 。 

例如 ， 一 个 简单 的 质谱 裂解 规则 RI 为 ， 

R1. N—C—C—C —N—C* C—C 

为 每 个 分 子 用 下 述 方法 解释 这 一 规则 : 

CD 寻找 分 子 中 所 有 与 这 条 规则 左边 匹配 的 分 子 子 图 部 分 ; 

O 对 于 每 个 匹配 ， 将 分 子 在 规则 右边 加 星 号 标记 的 键 断 开 ; 

O 保留 星 号 左边 的 部 分 (例如 保留 N 一 C)， 并 记录 保留 部 分 的 质量 。 

在 一 个 大 分 子 里 ， 规 则 RI 可 多 次 使 用 ， 例 如 ，CHs 一 CH 一 CH 一 NH 一 CHs， 
CH 一 CH 一 CHs 的 谱 线 ， 包 含 数据 点 质量 在 72 和 86， 使 用 这 个 规则 导出 两 个 分 裂 碎片 : 
CH;—CH;—CH;—NH-CH;: 

: CH; —NH—CH;—CH;—CH;—CH; 

“Meta-DENDRAL” 系 统 通过 学 习 ， 从 已 知 化 合 物 的 质谱 图 归纳 出 有 机 化 合 物 的 裂解 规 

则 ， 学 习 过 程 示 于 图 10-7。 
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首先 ， 由 解释 程序 INTSUM 从 训练 集 总 结 出 初步 的 裂解 规则 ， 每 个 分 子 通过 寻求 能 
解释 每 个 质谱 峰 产 生 原 因 的 一 个 或 多 个 裂解 过 程 ， 为 该 分 子 说 明 其 质谱 中 的 每 个 峰 ， 利 用 下 
述 限 定 条 件 可 限制 应 取 的 裂解 过 程 数 日 : 

d) 只 考虑 其 裂解 碎片 与 质谱 峰 的 质量 数 相对 应 的 断裂 ; 

(2) 质谱 领域 的 语义 模型 限制 ， 即 只 考虑 半 阶 理论 允许 的 裂解 。 

在 质谱 领域 知识 的 语义 模型 中 ， 有 所 谓 零 阶 理论 ， 是 指 分 子 内 部 每 个 键 的 子 集 都 能 
裂 ， 但 这 个 理论 不 足以 限制 搜索 范围 ， 因 此 ， 把 某 些 通用 的 指导 方针 强加 在 它 上 面 ， 称 为 半 
阶 理论 。 这 一 理论 断言 在 质谱 分 析 过 程 中 ， 一 些 将 要 断 开 而 且 原子 将 迁移 。 

关于 裂解 有 如 下 限制 : 双 键 和 三 键 不 断 开 ; @ 芳 烃 键 不 断 开 ; 加 在 数据 中 只 应 出 现 比 
两 个 碳 原子 还 大 的 裂解 碎片 ;四 相同 碳 原子 的 两 个 键 不 能 同时 断 开 ; @ 在 任意 一 次 裂解 中 ， 
断 开 的 键 不 能 多 于 三 个 ; @ 在 一 个 过 程 中 不 会 出 现 多 于 两 次 的 完全 裂解 ，Q@ 在 多 步 过 程 中 最 
多 只 有 两 个 环形 裂解 碎片 。 

关于 原子 迁移 有 如 下 规则 : 名 在 一 次 裂解 之 后 ， 至 多 有 两 个 氢 原 子 能 够 迁移 ，@ 在 任意 
一 次 裂解 之 后 ， 至 多 脱 除 一 个 H0: @ 在 任意 一 次 裂解 之 后 ， 损 失 至 多 不 过 一 个 CO 单位 。 

语义 模型 是 化 学 与 质谱 学 基本 知识 及 专家 经 验 的 总 结 。 利 用 语义 模型 ， 化 学 质谱 专家 可 
以 灵活 地 修订 增删 约束 条 件 ， 指 导 规 则 生成 过 程 。 在 INTSUM 总 结 出 初步 裂解 规则 之 后 ， 
“工作 ”环节 根据 裂解 规则 形成 模拟 质谱 , “比较 ”环节 将 模拟 质谱 与 实际 质谱 进行 比较 ， 驱 
动 “ 学 习 ” 环 节 。 学 习 环 节 中 有 RULEGEN (规则 产生 ) 与 RULEMOD (规则 修正 ) 两 个 
程序 。RULEGEN 寻找 较 INTSUM 产生 的 初步 裂解 规则 更 一 般 的 规则 集 ， 它 不 仅 要 符合 已 
有 的 样本 ， 还 可 解释 新 的 质谱 数据 ， 即 一 般 的 规则 应 能 正确 解释 质谱 中 很 多 数据 点 〈 正 的 证 
据 )， 也 可 预测 一 些 在 任意 图 谱 中 都 不 出 现 的 峰 ( 负 的 证 据 )， 正 的 证 据 是 成 功 的 标志 ， 由 这 
些 规则 引进 的 负 的 证 据 则 由 RULEMOD 通过 规则 合并 、 消 除 宛 余 等 方法 进行 修正 。 假 设 某 
一 次 已 成 功 地 使 用 了 一 次 规则 ， 一 旦 这 个 规则 中 还 有 一 个 不 合适 的 例子 ，RULEMOD 能 适 
当地 修改 这 个 规则 。 这 里 系统 的 输入 是 样本 质谱 与 语义 模型 ， 而 输出 的 是 关于 分 子 结构 分 裂 
过 程 的 产生 式 规 则 集 。 最 后 ， 将 得 到 的 裂解 规则 存储 于 知识 库 。 

可 以 看 出 ， 上 述 学 习 过 程 体现 出 专家 系统 程序 向 训练 集 样本 学 习 ， 而 同时 也 吸收 了 化 学 
与 质谱 专家 的 知识 与 经 验 。 

“Meta-DENDRAL” 的 应 用 ,不 但 确证 了 一 些 过 去 已 发 现 的 质谱 测定 法 的 规则 ， 而 且 还 
发 现 了 一 些 过 去 未 报道 的 化 烷 分 子 的 新 规则 。“Meta-DENDRAL” 系 统 亦 适用 于 13C NMR 
的 解析 。 


二 、PLATO 数据 解析 专家 系统 


该 系统 由 Curry 等 开发 [584 ， 其 结构 框图 如 图 10-8 所 示 ， 其 系统 主要 由 四 部 分 组 成 : 
中 控制 -推理 器 模块 ;外 数 据 库 管 理 模块 久 分 子 结构 编辑 模块 ;由 数据 专家 模块 。 这 个 系 
统 主要 用 于 GC/IR/MS 数据 的 自动 解析 ， 其 中 “数据 专家 ”主要 模拟 谱 图 学 家 收集 和 解析 
数据 5“ 控制 器 ” 则 在 系统 中 起 化 学 家 所 起 的 作用 ;“ 库 管理 ”是 对 谱 图 库 中 的 谱 图 、 结 构 及 
子 波谱 进行 管理 和 检索 ; 而 “结构 编辑 ” 则 是 完成 结构 的 分 解 、 装 配 和 显示 的 任务 。 

该 系统 是 一 个 分 布 式 专家 系统 ， 其 程序 模块 可 以 并 行 运行 ， 故 可 加 快 解 析 速 度 ; b. 
该 系统 可 对 各 种 不 同类 型 的 数据 进行 处 理 ， 且 可 根据 不 同 的 数据 类 型 ， 选 用 不 同 的 数据 分 析 
算法 。 该 系统 允许 用 户 干预 或 控制 某 一 问题 解析 的 全 过 程 ， 如 光谱 的 归属 、 官 能 团 约 束 以 及 
子 结构 的 装配 ， 且 系统 与 用 户 间 的 交互 作用 是 完全 遵循 人 类 专家 演绎 推理 的 过 程 和 原则 来 进 
行 的 。 
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MED PLATO 系统 框图 


图 中 的 圈 表 示 程 序 模 块 








下 面 对 其 基本 结构 的 几 部 分 给 出 简要 介绍 。 

CD 数据 专家 该 系统 的 数据 专家 为 一 独立 模块 ， 主 要 由 三 部 分 组 成 : 四 红外 “数据 专 
ZA" IR expert); OMI "Hn" OMS expert); 加 数据 库 专家 。 此 三 部 分 子 模块 可 进 
行 相互 交换 与 连接 ， 还 可 相互 调用 。 

(2) 控制 器 控制 器 是 PLATO 的 心脏 ， 它 的 功能 就 像 一 个 化 学 家 ， 如 设 定 分 析 的 目 
的 ， 组 织 “ 数 据 专 家 ”， 并 把 “数据 专家 ”所 得 结果 进行 综合 ， 以 求 得 问题 的 最 终 答 案 。 

G) 知识 库 在 PLATO 系统 中 ， 知 识 库 以 层次 方式 组 织 了 1000 个 化 学 子 结构 ， 知 识 
库 中 的 每 一 项 为 一 “化 学 类 ”， 它 们 包含 了 最 重要 的 有 机 官能 团 , 该 知识 库 分 布 在 所 有 
PLATO 的 模块 中 ,但 维护 和 更 新 则 统一 由 控制 器 进行 。 

知识 库 包 含 了 所 有 重要 的 与 红外 光谱 相关 的 子 结构 ， 同 时 也 包含 了 质谱 和 核磁 共振 谱系 
统 中 的 主要 子 结构 。 谱 图 的 手段 不 同 ， 对 于 子 结构 的 表达 之 侧重 亦 各 不 相同 ， 如 红外 所 侧重 
的 是 官能 团 ， 质 谱 侧重 的 为 元 素 的 组 成 ， 而 3C 核磁 共振 谱 (3C NMR) 则 侧重 碳 原子 的 局 
部 化 学 环境 。 对 系统 的 查询 ， 所 得 结论 以 及 对 结论 的 解释 均 以 这 些 子 结构 为 基础 。 


三 、 高 效 液 相 色 谱 专家 系统 


此 高 效 液 相 色谱 专家 系统 由 中 国 科 学 院 大 连 化 学 物理 研究 所 开发 1642， 是 一 个 与 色谱 
仪器 直接 联 用 的 集成 系统 ， 由 以 下 几 个 子 系统 组 成 : 

全 自动 化 高 效 液 相 色谱 仪 ; 

© 高 效 液 相 色谱 样品 预 处 理 及 最 佳 柱 系统 推荐 模块 ; 

C 高 效 液 相 色谱 最 佳 分 离 条 件 优 化 模块 ; 

CD 高 效 液 相 色谱 谱 图 库 及 其 验证 模块 ; 

© 高 效 液 相 色谱 定性 定量 数据 处 理 模块 。 

这 些 子 系统 既 各 自 自 成 体系 ， 相 互 之 间 又 可 连接 和 相互 交流 ， 是 一 个 有 机 的 整体 202 。 
该 系统 从 20 世纪 80 年 代 初 开始 开发 ， 由 中 国 科 学 院 院士 卢 佩 章 领头 ， 历 经 10 年 方 得 以 完成 。 

该 系统 的 作者 认为 ， 一 个 完整 的 高 效 液 相 色谱 专家 系统 应 当 包括 样品 预 处 理 方法 推荐 、 
最 佳 柱 系统 推荐 、 操 作 条 件 优化 以 及 色谱 数据 的 定性 定量 ， 而 且 更 为 重要 的 是 这 些 模块 之 间 
的 有 机 联系 。 作 者 指出 ， 某 些 复杂 样本 需 作 适当 预 处 理 ， 使 得 其 变 得 容易 分 离 和 检测 ， 进 而 
使 得 推荐 的 柱 系统 更 佳 ， 只 有 当 推 荐 的 柱 系统 最 佳 ， 继 而 进行 的 操作 条 件 优 化 才 有 真正 的 价 
值 ， 反 过 来 ， 也 只 有 是 在 最 佳 条 件 比 较 不 同 的 柱 系统 所 得 结果 才 有 效 ， 故 预 处 理 、 柱 系统 选 
择 和 操作 条 件 优 化 是 不 可 完全 分 立 的 。 如 果 还 更 深层 次 考虑 ， 色 谱 的 定性 库 不 仅 可 用 于 谱 图 
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库 中 谱 峰 的 定性 ， 还 可 以 用 于 条 件 优 化 ， 再 进一步 来 比较 不 同方 法 之 间 的 差异 ,筛选 出 最 佳 
方案 来 改善 柱 系 统 的 推荐 。 所 以 ， 上 述 专家 系统 的 几 个 子 系统 必须 有 机 地 结合 起 来 ， 在 充分 
发 挥 它们 各 自 功能 的 基础 上 ， 还 必须 进行 全 面 合理 安排 。 一 方面 需要 一 个 总 体 控制 模块 来 控 
制 选择 调用 专家 系统 中 的 每 一 个 子 系统 ， 另 一 方面 还 需 考 虑 每 一 模块 之 间 的 相互 连接 ， 使 每 
一 模块 之 间 能 够 相互 调用 ， 共 享 数据 库 和 谱 图 库 [22]。 

我 们 将 该 专家 系统 的 各 模块 称 为 子 系统 是 因为 前 述 的 各 模块 都 可 相应 地 看 成 一 个 独立 的 
专家 系统 ， 它 们 各 自 都 具有 专家 系统 所 需 的 各 要 素 ， 即 它们 都 具有 自己 的 化 学 知识 库 〈 或 化 
学 知识 源 ) 、 自 己 的 推理 步 又 或 控制 结构 以 及 数据 库 等 。 有 关 该 系统 的 详细 介绍 ， 读 者 可 进 
一 步 参 阅 文献 L23j。 


四 、ESESOC 有 机 化 合 物 结构 解析 专家 系统 


该 系统 由 中 国 科学 院 长 春 应 用 化 学 研究 所 开发 .~1] ， 其 结构 框图 如 图 10-9 所 示 ， 其 
解析 过 程 从 逻辑 上 可 分 为 三 步 : 

O 由 实验 数据 (如 质谱 、 核 磁 共振 波谱 和 红外 光谱 等 ) 或 者 由 化 学 信息 〈 如 分 子 式 ) 
出 发 ， 在 知识 库 (如 谱 图 -结构 相关 规则 〉 中 获得 化 合 物 结构 碎片 集 ; 

© 在 结构 碎片 集 的 基础 上 ， 利 用 知识 库 (如 诸多 约束 条 件 )， 经 结构 发 生 器 进行 整体 结 
构 的 对 接 ， 生 成 各 种 可 能 的 分 子 异 构 体 ， 得 候选 化 合 物 ; 

O 在 波谱 模拟 、 分 子 张力 能 计算 、?3C 谱 峰 信息 、 模 式 识别 及 人 机 交互 信息 等 的 作用 
下 ， 进 行 候选 化 合 物 的 验证 ， 直 至 将 最 可 能 的 结构 输出 。 

在 上 述 步骤 中 ， 他 们 认为 核心 部 分 是 结构 发 生 器 ， 实 因 必 须要 求 结 构 发 生 器 所 产生 的 候 
选 化 合 物 遍历 所 有 可 能 结构 ， 亦 即 穷 举 且 无 元 余 的 。 在 此 步 中 需 灵 活 运用 图 论 、 离 散 数学 和 
拓扑 学 等 手段 ， 是 该 系统 最 难 的 一 部 分 。 男 一 方面 ， 因 随 着 化 合 物 原子 数 的 增 大 ， 还 将 遇 到 
“组 合 爆 炸 ” 的 问题 ， 使 穷 举 难于 实现 ， 确 为 此 类 系统 的 难点 问题 。 

有 关 该 系统 的 详细 信息 ， 读 者 可 参阅 文献 [20j。 
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因 本 书 讨论 的 有 关 化 学 计量 学 的 方法 用 到 不 少 线性 代数 、 统 计 学 和 一 些 优化 方法 所 需 知 
识 ， 而且， 有 些 知识 在 一 般 数学 教科 书 上 还 很 难 找到 ， 为 使 本 书 成 为 一 个 封闭 系统 ， 故 将 一 
些 必 要 的 线性 代数 、 统 计 学 和 一 些 优化 方法 所 需 的 基本 知识 收录 于 此 ， 汇 成 一 章 供 读者 参考 。 

在 介绍 这 些 知 识 之 前 ， 有 必要 讨论 一 下 化 学 量 测 数据 的 矢量 和 符 阵 表示 方法 。 在 分 析 化 
学 的 测量 中 ， 一 个 化 学 样本 一 般 都 可 由 一 个 谱 来 表示 ， 如 常见 的 光谱 、 色 谱 、 各 类 波谱 和 各 
种 电化 学 谱 。 将 这 些 谱 离散 化 ， 就 可 得 到 一 组 数据 ， 这 组 数据 就 相当 于 数学 中 的 矢量 。 如 果 
把 很 多 样本 收集 在 一 块 ， 就 可 得 到 一 个 和 矩阵。 一 般 说 来 ， 在 这 样 的 数据 矩阵 中 ， 对 一 个 样本 
量 测 所 得 到 的 一 个 谱 可 置 为 一 个 行 矢量 ， 这 样 的 行 矢 量 可 称 为 一 个 样本 对 象 或 一 个 样本 ， 与 
之 类 似 ， 在 这 样 的 数据 矩阵 中 ， 一 个 变量 〈 如 一 个 分 析 通 道 、 一 个 波长 等 ) 可 置 为 一 个 列 矢 
量 ， 这 样 的 列 矢 量 可 称 为 一 个 变量 。 本 书 所 论 及 的 大 多 数 化 学 计量 学 方法 ， 都 是 建立 在 这 样 
的 矢量 和 和 矩阵 之 上 的 ， 所 以 有 关 矢量 和 和 矩阵 运算 的 线性 代数 基础 知识 对 分 析 化 学 计量 学 就 显 
得 特别 重要 了 。 男 一 方面 ， 由 于 在 分 析 量 测 中 总 得 与 量 测 误差 打交道 ， 怎 样 来 估价 这 些 随 机 
误差 对 量 测 数 据 的 影响 ， 这 就 得 需要 统计 学 知识 ， 因 在 本 书 讨论 的 是 多 变量 化 学 计量 学 方 
法 ， 特 别 地 还 需要 多 元 统计 知识 。 优 化 方法 是 化 学 计量 学 中 常用 的 一 种 数学 方法 ， 对 它 的 党 
握 将 对 发 展 化 学 计量 学 新 方法 很 有 必要 ， 在 此 给 出 简要 介绍 ， 以 示 其 重要 性 。 
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一 、 随 机 事件 的 概率 公式 


1. 随机 事件 及 其 概率 

在 一 定 的 条 件 下 ， 现 象 A 可 能 发 生 ， 也 可 能 不 发 生 ， 我 们 把 发 生 了 现象 A 的 事件 叫做 
随机 事件 A ,简称 事件 A 。 如 果 在 既定 的 条 件 下 进行 一 组 试验 ， 总 共 试 验 N 次 ， 其 中 现象 
A 发生 了 Na 次 ， 则 该 组 试验 中 事件 A 的 频率 为 (Na/N)， 重 复 进行 很 多 组 这 样 的 试验 ， 
可 发 现 随机 事件 的 频率 具有 某 种 规律 性 ， 如 果 从 统计 意义 上 说 ， 随 机 事件 的 频率 存在 着 一 个 
极限 值 ， 称 为 事件 A 的 概率 ， 记 为 P(A) : 


lim (Na/N)=P(A) 
Noo 


















































若 事件 A 和 事件 B 是 两 个 不 同 的 随机 事件 ，A 和 B 的 和 事件 (A 十 B) 是 指 A S B 中 至 
少 有 一 个 发 生 的 事件 。 如 用 两 个 圆 分 别 表示 事件 A 和 事件 B 的 集合 ， 如 图 11-1 所 示 ， 则 两 
个 圆 的 总 和 就 代表 (A 十 B) BUSES. WAR. BUB ARE, RERA BRE, 或 者 A、B 同 
时 发 生 的 事件 都 是 事件 CA HB). 

定义 事件 A 与 事件 B 的 积 事 件 AB 为 A 和 B 同时 发 生 的 事件 。 图 11-2 中 两 个 事 
的 区 域 就 是 积 事件 的 区 域 。 

2. 和 事件 概率 公式 

和 事件 (AHB) 的 概率 就 是 图 11-1 阴影 区 域 中 事件 集合 的 概率 ， 其 概率 公式 为 
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P(A+B)=P(A)+P(B)+P(AB) 
如 果 A 和 B 不 可 能 在 一 次 试验 中 同时 发 生 , 即 
P(AB)=0 
则 称 事件 A 与 事件 B 是 互 斥 事件 (参见 图 11-3) 。 








+ 


件 的 和 (A+B) 


事件 的 积 (AB) 


C 


互 斥 事件 LP(AB ) -0] 
3. 积 事件 概率 公式 和 条 件 概 率 
设 B 为 任意 事件 ，P(B) 宝 0， 则 在 B 发 生 的 条 件 下 ,事件 A 的 条 件 概 率 定义 为 
P(AIB)=P(AB)/P(B) (11-1) 
即 
P(AB)=P(B)P(A|B) 
同 理 有 
P(AB)=P(A)P(BIA) (11-2) 


式 (11-2) 即 称 为 积 事 件 的 概率 公式 。 
对 于 事件 A 和 事件 B， 如 果 事 件 A 的 概率 不 受 B 是 否 发 生 的 影响 ， 即 


P(A|B) —PCA) (11-3) 
则 称 事件 A 独立 于 事件 B。 显 然 ， 对 于 相互 独立 的 事件 A 和 B， 积 事件 概率 公式 为 
P(AB)=P(A)P(B) (11-4) 
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4. 全 概率 公式 

符号 (Ai) 表示 某 一 事件 组 (A;，…，Aj;,…)。 如 果 任 意 一 次 试验 的 结果 都 至 少 发 
Æ (Ap 中 的 一 个 事件 ， 则 称 {A;} 是 一 个 事件 的 完备 集 。 显 然 ， 对 于 事件 的 完备 集 
(Ai), 有 























N 
P(D)A;)=1 (11-5) 


i=1 





N 
式 中 ，》) AG (Ai) 中 的 所 有 事件 求 和 。 

i=1 
WR (AS 是 一 个 互 斥 事件 的 完备 集 ， 式 〈11-5) 可 直接 写成 

















N N 
PC(> AD)= MP(AD-1 (11-6) 
i=1 i=1 


而 对 于 任 一 随机 事件 B 有 下 列 全 概率 公式 
P(B) 2X P(BA;) =} PB | AOPCAD (11-7) 


这 是 因为 (A 是 一 个 互 斥 事件 的 完备 集 ， 而 也 总 是 伴随 {A;) 中 的 现象 同时 发 生 ， 
所 以 ， 事 件 B 可 以 表示 成 下 列 互 斥 积 事件 之 和 











N 
B — BA1 -- BA; ++ --BAy = Sj P (BA; ) (11-8) 


i=l 


贝 叶 斯 (Bayes) 公式 
事件 A 对 于 事件 B 的 条 件 概率 ， 可 以 由 事件 A 和 事件 B 的 概率 以 及 B 对 于 A 的 条 件 
概率 算出 ， 这 就 是 关于 条 件 概率 的 贝 叶 斯 (Bayes) 定理 : 


P(A | B)=P(B | A)P(A)/P (B) (11-9) 


WRAS (Ai). 而 (4A;》 是 一 个 互 斥 事件 的 完备 集 ， 利 用 全 概率 公式 〈11-8)， 贝 叶 
斯 公式 又 可 写成 


P(A | B) —PCB | A)JPCA)/PCB) —PCXGB | AJPCAD)/ E [P(B | ADPCAD] 


lj t^ 






























































二 、 随 机 变量 及 其 分 布 


对 于 任 一 随机 实验 ， 它 的 样本 空间 是 S = {e} ， 如 果 对 于 每 一 个 属于 该 样本 空间 的 样本 
有 一 个 实数 X(e) 与 之 相对 应 ， 这 样 就 得 到 一 个 定义 上 的 实数 单 值 函 数 X(e) ， 则 X(Ce) fr 
为 随机 变量 。 

有 些 随机 变量 ， 它 全 部 可 能 取 到 的 值 是 有 限 个 或 是 可 列 无 限 多 个 ， 这 种 随机 变量 称 为 离 
散 型 随机 变量 ， 和 否则 称 为 连续 型 随机 变量 。 

d X 是 一 个 随机 变量 ，x EER, PR FOOD SP XS) BRA RE. TEXCH 
P{X 入 xz 表示 随机 变量 X 取 值 小 于 x 的 概率 。 对 于 任意 实数 zl xí xor.) A 


P(x,x Xx cr, —P(Xzx cr —PIXzxj—FGGO; 一 下 (zy (11-10) 


FUE. zc X 的 分 布 函数 就 能 知道 X 落 在 任 一 区 间 Gri. z) 上 的 概率 。 从 这 意义 上 来 
说 ， 分 布 函 数 完整 地 描述 了 随机 变量 的 统计 规律 性 。 
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分 布 函 数 具 有 以 下 的 基本 性 质 : 
(1) Fa) 是 一 个 不 减 函 数 。 事 实 上 ， 


F(zr,)— F(zrz1)=P{zrxi SX Sz) Z0, x x3) 


(2) 0 « FG « 1 这 是 因为 概率 的 最 大 取 值 为 1 。 
一 般 的 ， 如 果 对 于 随机 变量 X 的 分 布 函数 FCz) ， 存 在 非 负 的 函数 AGO ， 使 对 于 任意 
实数 A 





FG) =| fod (11-11) 














则 X 称 为 连续 型 随机 变量 ， 其 中 函数 f(x) 称 为 X 的 概率 密度 函数 ， 简 称 概率 密度 。 很 明 
显 ， 连 续 型 随机 变量 的 分 布 函数 是 连续 函数 。 由 定义 可 知 概率 密度 具有 以 下 性 质 。 
(OD f(x) 宇 0。 


a | fdr =1, 


O) Plz, € X & =F(z) Fe) =|] fade, 


(4) 大 在 点 过 处 连续 , 则 有 dL F Go ]/dx — f GO. 
下 面 介 绍 几 种 最 重要 的 连续 型 随机 变量 的 分 布 。 
1. 均匀 分 布 
设 连续 型 随机 变量 X 在 有 限 区 间 (a ,2) 内 取 值 ， 且 其 概率 密度 为 
1/(b—a) arb 
0 其 他 











则 称 X 在 区 间 (a ，5) 上 服从 均匀 分 布 。 

在 区 间 Ca. b) 上 服从 均匀 分 布 的 随机 变量 ， 具 有 下 述 意义 的 可 能 性 ， 即 它 落 在 区 间 
Ca. b) 中 任意 长 度 的 子 区 间 内 的 可 能 性 是 相同 的 ， 或 者 说 它 落 在 子 区 间 内 的 概率 只 依赖 于 
子 区 间 的 长 度 而 与 子 区 间 的 位 置 无 关 。 事 实 上 ， 对 于 任意 长 度 为 h 的 子 区 间 Cc. c A2. 
a Xic xCcd- h xL b s. UH 



































Ple X &cn o [rooas =f% a)dx —h/(b —a) 





均匀 分 布 在 计算 机 数值 模拟 中 具有 相当 重要 的 地 位 。 
2. 正 态 分 布 
设 连 续 型 随机 变量 X 的 概率 密度 为 





f GG) = Q//2x)e G-710/ — oo «Cy « co (11-125 


式 中 , p.o 二 0 为 常数 ， 则 称 X 服从 参数 为 wp，c 的 正 态 分 布 或 高 斯 分 布 ， 记 为 X 一 N 
(u.0?), p 和 o 分 别称 为 正 态 分 布 的 数学 期 望 和 均 方差 ， 是 两 个 非常 重要 的 参量 。 它 的 图 形 
示 于 图 11-4。 特 别 地 ， 当 yy 一 0, o=1 Hf, PX 服从 标准 正 态 分 布 。 

f GO 的 图 形 对 称 于 xz 二 jy，o 的 大 小 影响 图 形 的 形状 ，c KWR., o 小 则 图 形 瘦 高 。 

一 般 正 态 分 布 可 以 通过 适当 变换 转化 成 标准 正 态 分 布 。 

XPX — NGOs, o), ZZ 二 (X 一 1)/o ， 则 Z 服从 标准 正 态 分 布 ， 即 Z — NCO, 12). 



























































第 十 一 章 ， 统 计 学 和 应 用 数学 基础 知识 727 | 


























不 同 均 方差 o 的 正 态 分 布 图 


3. xX? 分 布 
设 连续 型 随机 变量 X 的 概率 密度 为 
(1/[F(n/2) (27/2) ]) x /De e 
fix)-— 
0 x «0 
式 中 ,TT(. ) 为 伽 玛 函数 ; nn 为 正 整数 ， 则 称 X 服从 自由 度 为 2 Az ni, WH X — 
x5 (mn)。 对 不 同 的 自由 度 n, f(x) 的 图 形 示 于 图 11-5。X2 分 布 是 一 个 十 分 重要 的 分 布 ， 这 是 
因为 存在 有 一 个 如 下 定理 。 








fo 











X 


不 同 自由 度 (n) 的 x 分 布 图 





定理 : 独 51 ,5 ，…'，'6n 是 相互 独立 并 且 都 服从 正 态 分 布 N (0,1) 的 随机 变量 ， 则 随机 








e 
fat 


2 一 5 十 E2 十 … 十 E2 (11-13) 


服从 自由 度 为 ”的 X2 分 布 。 
当 n 二 1 时 ,x?(1) 分 布 又 叫 T 分 布 ， 当 ? 一 2 时 ，x?(2) 分 布 就 是 指数 分 布 。 


Ln) 分 布 的 可 加 性 定理 : Axion), xi—x?!Ow0. BÁAH 85r. B 
Xi xix dno (11-14) 








%Y2 分 布 表 及 用 法 : 对 给 定 的 a(0 二 a 二 1)， 若 有 一 点 x?2 (n) 满 足 条 件 








| 72 分 析 化 学 手册 “10” 化 学 计量 学 


Pt xo) =| fGodz =a SIBSTOS 





则 称 此 点 为 a 分 位 点 。 对 于 不 同 的 a,n,x?(n) 的 数值 已 制 成 数 表 ， 称 为 x?(n) 分 布 表 ， 可 在 
任 一 本 统计 学 书 上 方便 查 到 。 
4. 分 布 
t 分 布 的 概率 密度 函数 定义 为 : 


FŒ) — (LO 4 D/2]/LTGQ/2) Van} +t?/n)™ tD? (— œ <t <œ) (11-16) 


式 中 ,TC. ) 为 伽 玛 函 数 ;， n 为 正 整数 ， 是 > 自由 度 参数 。 式 (1-16) 表示 随机 变量 服从 自 
由 度 为 n Wt 分 布 ， 记 为 工 一 :2) 。 注 意 到 由 于 far = 太一 上 )， 所 以 它 的 图 形 关于 纵 轴 对 
称 ， 当 ?7” 增 大 时 ， 它 将 近似 于 正 态 分 布 ， 如 图 11-6 所 示 。 








fo 


1=co( 正 态 ) 














不 同 自由 度 的 {分布 图 





定理 : 若 随 机 变量 X 和 了 相互 独立 ， 有 上 且 X 服从 正 态 分 布 N (0,1), Y 服从 自由 度 为 n 
Hy 分 布 ， 则 
T —X/ /Y/n (11-17) 
服从 自由 度 为 的 1 分布 ， 记 为 i(n)。 
t(n) 分 布 表 及 用 法 : 对 给 定 的 a(0 二 a 二 1)， 符 有 一 点 t, (nn) 满 足 条 件 
P{T 2 1,00) =|f dt =a 


则 称 此 点 为 i:(n) -分 布 上 的 a 分 位 点 。 由 于 f(z) 图 形 的 对 称 性 ， 有 
ta(n) =t1 (n) 
对 于 不 同 的 ec，#，z。 Cn) 的 数值 已 制 成 数 表 ， 称 为 Cn) 分 布 表 ， 可 在 任 一 本 统计 学 书 
上 方便 查 到 。 注 意 到 表 中 所 列 ”最 大 为 45， 当 ?二 45 时 ， 就 用 N(C0,12) 分 布 来 近似 替代 。 


5. F 4s 
知 随 机 变量 7 和 5 相互 独立 ， 且 分 别 服从 自由 度 为 加 和 7 的 x? 分 布 ， 则 随机 变量 


F — (y /m)/C&/n) 














的 分 布 密度 函数 为 


三 (On /n)/72 z»/271 1/BCm/2,n/2)3L19-m/nm) x ] tm /2 x>0 (11-18a) 
(x)= 
i 0 z<0  (11-18b) 


式 中 ， B Cs 9 为 贝 达 ( Beta) 函数 ， 其 定义 为 : db. q 为 正 实数 ， 函数 




















第 十 一 章 ”统计 学 和 应 用 数学 基础 知识 729 | 














Bp. 0 -[z7a-avctàs (11-19) 


称 为 贝 达 函 数 。 随 机 变量 下 称 为 服从 自由 度 On. n) 的 下 分 布 ， 简 记 为 FF~F(m,n)。 注 
E. 下 分 布 有 两 个 自由 度 ， 第 一 个 自由 度 m 是 组 成 下 分 布 的 分 子 随机 变量 的 自由 度 ， 第 二 
^F EL FH BE n 是 组 成 下 分 布 的 分 母 随机 变量 的 自由 度 ， 密 度 函 数 fr (x) 的 图 形 示 于 图 11-7, 
























1.0F 
0.8- 
m-10, n-50 
* 0.6- 
小 
0.4- 
m-10, n-4 
0.2 








不 同 自由 度 的 F rds 


下 -分 布 的 性 质 : 
a) d X FOn. n), Wü1/X ~F, m); 
(2) Fi, OQ, m) —l/[F,On. n)] 
下 -分布 表 及 用 法 : 对 给 定 的 a(0 过 a 二 1)， 车 有 一 点 Fs (n,m ) 满 足 条 件 


P{F >F.(n, m)? - [rods 一 w 


则 称 此 点 为 下 s(n,m) 分 布 上 的 a 分 位 点 。 对 于 不 同 的 a n,m, (n,m) 的 数值 已 制 成 数 表 ， 
成 为 下 (n,m) 分 布 表 ， 可 在 任 一 本 统计 学 书 上 方便 查 到 。 注 意 到 下 (n,m ) 分 布 表 中 所 给 的 a 
都 是 很 小 的 数 ， 如 0. 10、0.05、0. 01 等 等 ， 当 a 较 大 时 ， 如 a 二 0.95， 表 中 查 不 到 ， 这 时 
根据 前 述 下 分 布 的 性 质 (2)， 就 可 查 到 。 比 如 Foos (15, 12) = I/LFo.o5 (12.152 ]— 
1/2. 48—0. 403, 


三 、 随 机 变量 的 数值 特征 

1. 数学 期 望 

设 离散 型 随机 变量 X 的 分 布 律 为 P{X —x,) =p, k 51,23), ERIX, pi 绝对 收 
M, WERA p AX 的 数学 期 望 ， 记 为 E(X)， 即 

E(X)—Xx,p, 

对 于 连续 型 随机 变量 ， 若 它 的 概率 密度 为 fO) ， 注 意 到 f Go dc 的 作用 与 离散 型 随机 
变量 中 的 p MXM, 于 是 自然 有 以 下 的 定义 。 

设 连续 型 随机 变量 X 的 概率 密度 为 /(z) ， 若 积分 | Go dae 绝对 收敛， 则 称 积分 | f Go dr 
为 X 的 数学 期 望 ， 记 为 E(X) Hl 
































EX) — [f Gods (11-20) 





数学 期 望 简称 期 望 或 称 为 均值 。 数 学 期 望 具 有 以 下 性 质 ; 
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COD 设 c 是 常数 ， 则 有 EG)-c. 

(2) d X 是 一 个 随机 变量 ，c 是 常数 ， 则 有 ECX) =E), 

(3) 设 X,Y 是 任意 两 个 随机 变量 , MA ECX 十 Y) —ECOXO c ECYD, 

(4) dX X,Y 是 两 个 相互 独立 的 随机 变量 ,， 则 有 ECOXYO —ECGOXDEQO)D, 

2. 方差 

w X 是 一 个 随机 变量 , 知 E{LX 一 E(X)]?}) 存在 ， 则 称 EE{L[X —ECGXO P2) 为 X 的 方 




















差 ， 记 为 var(X) 或 D(X),， 即 

var(X)=D(X)=E{[X—E(X)]} (11-21) 
在 应 用 上 还 引入 与 随机 变量 具有 相同 量 纲 的 量 VVar(X) ， 记 为 o(X) ， 称 为 标准 差 或 均 
方差 。 


对 于 离散 型 随机 变量 ， 按 上 述 定义 ， 则 有 
var(X) 2 DOO —X[x, — EC J? p, (11-22) 











式 中 ， P(X cj) pr lk 15239)'4 
对 于 连续 型 随机 变量 ， 则 有 





var(X) =D(X) 2J[[X — E(X) P f Ca2dx (11-23) 
式 中 ，f (xz) 为 X 的 概率 密度 。 关 于 随机 变量 的 方差 的 计算 有 如 下 公式 
var(X)=D(X)=E{[X— E(X) }?} (11-24) 


根据 前 述 数学 期 望 的 性 质 ， 容 易 证 得 
var(X) 2DOXO -E([(X 一 已 (X)]2》 
—E(X? —2XE (X) -LECX2 ]?) 


—E(CGX?) — E[2XECX) ] - E(LECXO ]?) 





=E(X?)—2E(X)E(X) - LECX2J* 
一 已 (X2 ) 一 [已 (X)]? 


同样 利用 数学 期 望 的 性 质 ， 容 易 证 明 方 差 的 以 下 性 质 ; 

CD dec 是 常数 ， 则 有 var(c ) 王 0。 

(2) 设 X 是 一 个 随机 变量 ，c 是 常数 ， 则 有 var(cX ) 一 c2Var(X ) 。 

(3) 设 X,Y 是 两 个 相互 独立 的 随机 变量 ， 则 有 varCX HY) — VarCX) + Var(Y) 。 
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一 、 矢 量 及 其 运算 


1. 列 矢 量 与 行 矢 量 
当 说 到 一 个 矢量 ae 时， 一 般 是 指 列 矢量 ， 行 矢量 wa: 是 指 它 的 转 置 ， 数 学 表达 式 如 下 : 
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aj 
a- | a'—[a15 aye n ad 
B 
两 个 矢量 相等 ， 当 且 仅 当 它们 的 每 一 个 元 素 都 相应 相等 。 即 如 果 
fa; [o 
NEL "T i 
|an |o, 








HA M Ci —bi(-—1,2,-:,n) 时 ， a FI b Zr 4855 , 

















2. 矢量 加 减法 
两 个 或 两 个 以 上 的 矢量 相 加 (或 相 减 )， 是 指 它 们 的 对 应 元 素 相 加 (或 相 减 )， 即 

4&1 十 01 | 

as Fbo 

atb=| ° 

an MOn | 

很 明显 ， 矢 量 的 加 减法 具有 以 下 性 质 : 
a+b=b+a (交换 律 ) 





(4 十 站 ) 十 c 一 4 十 (十 c) (结合 律 ) 


a-0—a 


称 为 零 天 量 ， 它 的 每 一 个 元 素 都 等 于 0。 
对 于 任 一 矢量 a， 都 存在 一 个 与 之 相反 的 矢量 一 a， 它 们 的 和 等 于 零 矢 量 ， 即 


4 十 (一 4) 王 0 


3. 矢量 的 数 乘 
dE 是 一 个 实数 (或 称 标 量 )， 则 它 与 任 一 矢量 a 的 乘积 为 该 矢量 的 每 一 元 素 与 它 的 
RE, BH, 


























ka = 
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很 明显 ， 矢 量 的 数 乘 具 有 以 下 性 质 : 





R1(R2a) 一 (RiIR2)a (结合 律 ) 
kıla +b)=kia +kıb (分 配 律 ) 
(kı +kz2)a =kia +kza (分 配 律 ) 





特别 地 ， 对 于 任 一 矢量 a 有 ， 





0a=0; la=a; la =—a 


4. 矢量 的 内 积 (或 称 点 积 ) 和 外 积 
两 个 矢量 的 内 积 产生 一 个 数 ， 即 





b, 
b» 
a'b—[a,.a5,*.a,] ,|= Xajb; 
b, 
很 明显 ， 
a'Cb--c) —a!b-ra'!c (分 配 律 ) 
(a 十 D)tc 一 atc 十 ptc (分 配 律 ) 








特别 地 ， 如 果 两 矢量 的 点 积 为 零 ， 则 称 它们 相互 正 交 ， 即 a'b 二 0。 
两 个 矢量 的 外 积 产 生 一 个 矩阵 ， 即 





a1 aj10, aj0» c ajbm 
a asb) asb "* abm 

ab—| ? [b bzs c bul] O S 0. (11-25) 
an a „bı a „bo e à D y, 


这 样 的 矩阵 可 称 为 双 线 性 和 矩阵， 在 多 元 分 辨 中 有 着 特殊 的 地 位 。 
二 、 和 矩阵 及 其 运算 
nXm 个 元 素 排 成 一 个 矩阵 : 
4i wap C9 ai 
or Hus E diga 


Unl Un2 ux a 


nm 


FK n frm FABER, SER nom WIERE., 7638 ai; 可 以 是 数 ， 也 可 以 是 代数 式 。 当 7 一 1 时 ， 
fyixABEEA n 维 行 矢量 ; 4 m=1 iF, KAEN m 维 列 矢量 ; n=m 时 ， 称 为 方 阵 。 

通常 用 大 写 黑 体 字 母 A ，B… 表 示 和 矩阵 ， 用 带 有 下 标 i，j 的 小 写字 母 c bin A AE 
WERA, B. HIS i £158 j 列 的 元 素 ， 因 此 有 时 也 用 aj) 表示 和 矩阵 A， 和 矩阵 A 有 时 也 
可 以 用 列 矢 量 来 表示 ， 即 4 三 [al ,as，,…,a,, ]。 
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1. 矩阵 的 加 减法 
两 个 或 两 个 以 上 的 具有 相同 阶 数 的 矩阵 相 加 (或 相 减 )， 是 指 它们 的 对 应 元 素 相 加 (或 
THU. BH 


A--B-—(ajg)-T( j)-—(aig-Fbi) 
很 明显 ， 和 矩阵 的 加 减法 具有 以 下 性 质 .: 
A--B—B--A (交换 律 ) 











(A 十 B) 十 C= 二 A 十 (B 十 C) (结合 律 ) 


2. 矩阵 的 数 乘 

WMR k 是 一 个 实数 (或 称 标量 )， 则 它 与 任 一 矩阵 A 的 乘积 仍 为 一 和 矩阵， 该 矩阵 的 每 一 
元 素 由 A 中 相应 的 元 素 与 & 的 乘积 所 构成 ， 即 RA —R Cai) — Gai). FA WEB. RIED 
乘 具 有 以 下 性 质 : 




















kı(k2A)=(kık2)A (结合 律 ) 


kı(A FTB) =k; A +kıB (分 配 律 ) 





(kı -R22A =k A +k2A (分 配 律 ) 
3. 矩阵 乘 矩 阵 
GU Xq0BTARIE A — CajjDa x q 5 Cq Xm) BTOB ER B — ij axm BIBAT C X m) Brog Ee 
C 王 (ci Ja Km? 它 的 元 素 Cij 由 等 式 








Cij — Xa ib yj 
决定 ， 即 为 A 的 第 i 行 与 B 的 第 j RR, EA E ERE E — LSU E aciRfE. BD 


ABBA 








© 
nu 
3 
lign 
ai 
np 
im 
TRI 





ABC — (AB)C —A (BC) 
同样 也 满足 分 配 律 : 
A(B+C)=AB+AC 
(A+B)(C+D)=A(C+D)+B(C+D) 


4. 零 矩 阵 和 单位 矩阵 

FEH 0 表示 ， 它 的 全 部 元 素 都 为 0。 一 个 n 阶 方 阵 ， 假 如 其 对 角 线 上 的 元 素 都 是 
1， 非 对 角 线 上 的 元 素 都 是 0， 就 称 为 单位 矩阵 。 它 可 用 了 工 或 I 表示 ,很 明显 ,0 和 了 有 下 
列 两 个 类 似 于 数 0 和 数 1 所 具有 的 性 质 : 


A+0=A (11-26a) 








IA —AI —A (11-26b) 


5. 矩阵 的 转 置 
把 矩阵 的 4 行 和 列 互相 调换 位 置 后 ， 所 得 的 矩阵 A' 称 作 和 矩阵 的 转 置 矩阵 ， 也 即 知 A! 的 
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第 i 行 第 7 列 的 元 素 用 < 表示 ，A4 的 第 i 行 第 7 列 的 元 素 用 a4; 表示， 则 有 关系 式 





at =a; (11-27) 
由 以 上 定义 ， 可 得 到 如 下 的 关系 式 : 
(AB)! -B'A' (11-282) 
(ABC)! —C! B'A* (11-28b) 





如 果 和 矩阵 A WEE EMETRE, BASA, MEAE E AH EE E. 

6. WARE 

如 果 两 个 阶 方 阵 4 MB., WEAB=I, AB 是 A 的 逆 阵 并 记 为 4 !;. WWURA fft. 
则 称 是 A 非 奇 异 和 矩 阵 ， 或 称 为 满 秩 和 矩阵 ， 否 则 称 是 奇异 矩阵 。 和 矩 阵 的 逆 运 算 具 有 以 下 性 质 .: 


(AB) 1=B iA ! (11-29) 





























(A') !1—(A 1)! (11-30) 


矩阵 的 行列 式 ; 
方 阵 的 行列 式 是 一 个 数 ， 记 为 det(4) —a. a 为 任 一 实数 。 如 果 为 一 n 阶 方 阵 ， 有 





detCA) — C — D az; detCA 4) 





式 中 ，Ajj 是 (一 1) X al NEE, T XEXIESB k 行 和 第 7 列 所 得 到 的 4 BJ TEE, A 
用 的 行列 式 性 质 包括 





det(AB)= det(A)det(B) 
det(A')=det(A) 

det(kA) 一 k"det(4) A 是 (x Xn) WIERE 
det(A ) 关 0 SA 是 非 奇异 阵 


7. 正 交 和 矩阵 

如 果 一 个 方 阵 A， 满 足 A'h4 = 二 TI， 那么 则 称 A NEZER, BRA 
A'=A-! 
det(A) — 31 


detCAJdetCA) — detCA D detCA) —detCA' AD —det(12) —1 


8. 方 阵 的 迹 
一 个 方 阵 A 的 迹 , 记 为 tr(A4)， 定义 为 它 的 主 对 角 线 上 元 素 的 和 ， 即 


tr(A ) — Xa j (11-31) 
特别 地 ， MA 是 个 一 行 一 列 的 矩阵 ， 即 为 一 个 数 a 时 ， 有 





tr(a)=a 


这 一 性 质 在 一 些 证 明 中 经 常用 到 ， 例 如 二 次 型 y'Ay 是 一 个 数 ， 所 以 
































第 十 一 章 ”统计 学 和 应 用 数学 基础 知识 785 | 




















trCy' Ay) — y' Ay (11-32) 
方 阵 的 迹 具 有 一 些 性 质 
trCA 3- B) — tr CAO c- trCB) (11-332) 
tr (aA) —atrCA) (11-33b) 
trCAB) — trKpBA) (11-330) 
E[trCA) ] 5 trLE CA) ] (11-334) 











式 中 , ELtr(A)] 表示 对 和 矩阵 A 的 迹 求 数学 期 望 〈 或 称 均 值 )， 式 011-3300. 所 示 的 性 质 表示 
求 迹 运算 与 求 数学 期 望 的 运算 可 交换 。 数 学 期 望 的 定义 将 在 统计 学 基础 知识 中 给 出 介绍 。 
9. 和 矩阵 的 秩 
一 个 nXm NKWERA, KAEA 中 最 大 线性 无 关 行 数 〈 或 列 数 )， 记 为 rank(4)。 它 
具有 下 述 性 质 



































to CA- (11-34a) 
OsCrank(A) &min(n ,m) siih) 
rank(AB)<min[rank(A),rank(B)] SED 
rank(A 4- B) &rankCA) d- rank(B) (11-34d) 
rank (A'A) —rank (AA') —rank (A) (11-346) 
如 果 A 是 n 阶 的 方 了 泗 ， 则 当 且 仅 当 det(& ) 不 等 于 零 时 ， 
rank(A)=n 
10. 矩阵 的 特征 值 和 特征 矢量 
一 个 矩阵 4， 如 果 有 
AYyic—AÀiYas c AY 一 人 AY (11-35) 





则 称 满足 上 述 方程 的 矢量 Y; (Gi 1.2. sk) WIERE A 的 相对 于 特征 值 a; (i 二 1,2,*…,k) 
的 特征 矢量 。 如 果 和 抢 阵 4 为 对 称 和 矩阵 ， 则 所 有 特征 值 都 是 实数 。 

定义 ”如 果 存 在 一 非 奇 异 矩 阵 荆 ， 使 得 B 二 TAT!1， 则 方 了 泗 B 和 A 是 相似 的 。 如 果 工 
ELEZE, MPB 是 A 的 正 交 相似 变换 矩阵 。 

对 于 任 一 对 称 矩 阵 A ， 可 经 正 交 对 称 相 似 变 换 成 为 一 对 角 和 矩阵 A， 即 


T'AT=A 或 A=TAT' 
































可 以 证 明 ， 其 中 的 对 角 元 素 A; (i 一 1,2,…,k) 就 是 矩阵 A 的 特征 值 ， 而 组 成 正 交 和 矩阵 工 
Hg FJ A E y; (i 二 1,2,…,k) 则 是 其 相对 应 的 特征 矢量 ,， 而且， 矩阵 A WRM S T X fo E E A 
中 对 角 元 素 不 为 零 的 特征 值 的 个 数 。 

11. 广义 特征 值 问题 

这 里 所 说 的 广义 特征 值 问 题 ， 是 指 线性 广义 特征 值 问题 

















AY —ABY (11-36) 
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UB. A, BON nom 阶 实数 矩阵 ; y 为 n 维 非 零 列 矢量 ;4 为 一 数 。 由 上 述 方程 〈11- 
36) 表述 的 问题 称 为 广义 特征 值 问 题 ， 并 称 满 足 方程 (11-360 的 矢量 Y 为 矩阵 4 相对 于 B 
的 广义 特征 矢量 ,a 为 相应 特征 值 。 当 A 和 B 都 为 方 阵 时 ， 可 采用 QZ 算法 求解 ， 有 关 其 具 
体 解 法 可 参阅 文献 [2]. 



























































12. REEM 
-ANA MRA aaa, WARS. pif M 
TERA TEMERE; 
(OD AESEPERIREAEfRAE O 即 1。 
证 明 o WEGA 的 特征 值 ， 则 有 
Ab —ab (11-37) 
sub. b 是 非 零 和 失 量 ， 它 是 A 的 属于 特征 值 a WHERE, MIRERERA, d 
A? b —aAb =Q? (11-38) 
同时 ， 注 意 到 4 AU mE. Bl 
Ab —ab —A?b —aAb —a? b >a =Q? (11-39) 


解 方程 (11-39)， 即 可 得 a 二 1 或 a 二 0。 
(2) AEE A RHR. MAE ER krank )] 等 于 该 矩阵 的 迹 。 
证 明 HIREA 的 秩 为 r>， 由 于 4 是 对 称 和 矩阵 ， 故 存在 正 交 和 抢 阵 O ， 使 得 





> 
| 
© 


Q'—QAQ' (11-40) 
Àn—1 





Àn 


式 中 ， Al ,人 2 是 人 的 特征 值 ， 注意 到 A 又 是 秩 为 7 的 需 等 阵 ， T E SE P HN 寺 征 值 
非 0 即 1， 所 以 X41,X42,…,4% 恰 有 r 个 1， 其 余 n 一 r 个 全 为 0， 于 是 


tr(A)=tr(QAQO')=tr(AQ0'0)=tr(A)=73;=r=rank(A) 





























13. J^ X 3 5g Be 
—^*- nX mm NEREA, XPTETE—- mon WEEB, 满足 下 面 的 等 式 
ABA —A (11-41) 
MEK B 是 A MI X3 BUE. MANA oe. GR "—" XE. Ae 4 一 个 满 秩 和 矩阵， 由 式 














(11-41) 可 看 出 ，A ”就 是 A~!1。 因 此 广义 道 确 是 通常 逆 和 矩阵 的 一 种 推广 。 问 题 是 : 对 任何 
和 矩阵， 广义 道 是 否 一 定 存在 ?” 什么 时 候 是 唯一 的 ? 如 果 在 式 C11-4D 的 基础 上 再 增加 一 些 
条 件 ， 使 得 所 定义 的 广义 逆 存 在 并 且 唯 一 ， 这 样 的 广义 逆 称 “十 ” 道 或 称 Moore-Penrose 
道 ， 记 为 A ， 它 要 求 满足 四 个 条 件 : 


(DAA*A—A 2 A*AA* —A* 





























© (AA ^2! —AA * @ (A*AD'—A"*A 
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条 件 四 和 条 件 @@ 称 为 反 身 性 ; 条 件 四 和 条 件 由 称 为 对 称 性 。 容 易 证 明 ，Moore-Penrose 
逆 是 存在 且 唯 一 的 。Moore-Penrose HEK “+” RAU FIER: 




















rank(4) 一 rank(4+) 
(A*)* =A 

(At) t — (AT )* 

(AB)*)! — (A! B^ 

AA * fll A ^ A KIRE. 


14. 矩阵 的 导数 

ABE A 对 变量 i 的 导数 仍 是 一 个 矩阵 ,用 dA /dz 表示 ， 该 导数 矩阵 的 元 素 是 矩阵 4 中 
相应 元 素 对 变量 t 求 导 的 结果 ， 若 a;; 为 的 第 i 行 第 j 列 元 素 ， 则 dA /di 的 第 i 行 第 7 列 的 元 
素 为 da ;j / dt , 

矩阵 的 导数 有 如 下 性 质 : 






































dCAB) /dt — (dA/dt) B-- CB /dt)A 
d[ tr CA) ]/dt — trCdA / d£) 














15. 矢量 函数 的 导数 
设 f 是 关于 矢量 x 的 数量 函数 ，f/ 二 f(x)， 则 f 关于 矢量 x 的 导数 定义 为 
df (x) /dx — [df /dx, .df /drs df/drs,° ,df /dz, jt (11-42) 


AP, x— [ris oxi. c xs REWERA W P PER : 
COD Fa 为 常数 矢量 ， 则 








d(a'x)/dx—a 
d(x'a)/dx —a 
(2) d(x'Ax)/dx —2Ax 这 里 A EXPRE E, HA 中 的 各 元 素 都 是 常数 。 
三 、 独 立 性 、 正 交 性 和 子 空间 
dE n 维 实数 空间 中 ， 如 果 











>Aia;=0 全 1 一 1 一 … 一 1 一 0 








那么 ， 矢 量 组 {qa1,as,…,a,) 是 线性 无 关 的 。 否 则 ， 告 存在 41,X42,，…,4; 不 全 为 0 而 使 得 
Dia —0 成 立 ， 则 称 矢量 组 {a1 ,as… ,a,}) 是 线性 相关 的 。 

E n 维 实数 空 间 的 子 空间 是 一 个 子 集 ， 这 个 子 集 也 是 一 个 矢量 空间 。 矢 量 组 {ai， 
a2，,…,an} 的 所 有 线性 组 合 构 成 一 个 集合 ， 被 称 为 失 量 组 {a1 ,as,…,a,}) 张 成 的 子 空间 ， 
记 为 

















span{aı :42 2s) (X2; [Ai ÀZ ,An ER)? 




















如 果 矢 量 组 {ai s42 200, )} 是 线性 无 关 的 ， 并 且 b € sparía, 02 2548)» 那么 ， b 是 矢 
量 组 (a1 ,4as,…,a,) 了 唯一 的 线性 组 合 。 
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如 果 S1,Ss,…,S, 是 实数 空间 的 子 空间 ， 那 么 它们 的 和 也 是 一 个 子 空间 。 子 空间 的 交 
集 也 是 一 个 子 空间 。 

Jta ,4;,，"… ,qi ) 是 线性 无 关 的 ， 并 且 不 是 {a1 az， au) ESTE — RETRAT TE W 
真子 集 ， 这 个 子 集 {qai ,ai ,… ,a i,) 就 是 {qa1 ,4as,… ,a,) 的 一 个 最 大 线性 无 关子 集 ， 那 么 








span{aqii sai, ,*,a;, )} 一 Span(al, ay， an) 

















JF H (aia; a5; ) 是 span(ala，…adi) 的 一 组 基 矢 量 。 如 果 S 是 维 实数 空间 的 一 个 
子 空间 ， 那么 在 S 中 存在 无 关 的 基 矢 量 {al ,a,,… ,a,}， 使 得 








S — spanía, 05.1130, j 


个 子 空间 S 的 任 一 组 基 矢 量 的 个 数 必然 相同 。 这 个 数 就 是 该 子 空 间 的 维 数 ， 记 为 dim 





(S), 

在 实数 空间 中 有 两 个 与 矩阵 A 二 [Lai aan 有关 的 重要 的 子 空间 。A4 的 值 域 子 空间 
定义 为 

RGO-(y-ZAa; [A142 A ER} =span{a; ;as sa, } 
A 的 零 子 空间 定义 为 
NA) 王 10 王 Dipiai; Ip po yy ER} 
和 矩阵 的 秩 定义 为 
rank(A)= dim[R (A)] 


可 以 证 明 rank(4) 二 rank(A')， 于 是 一 个 矩阵 的 秩 就 等 于 其 最 大 无 关 行 数 或 最 大 无 关 
列 数 。 
XT F£—5BBE A ,x (nn 三 mm)， 则 ， 





dim[ N CA) ]--dim[ R CA) ] 7 


如 果 A 为 一 方 阵 ， 那 么 下 面 的 说 法 都 是 等 价 的 : 

(D 是 非 奇异 的 ; 

© dim[N(A)]=0 

®© rank(A)=n 

在 n 维 实数 空间 中 ， 如 果 矢 量 组 {ql astan WEA WA aia; 二 0， 则 称 此 矢量 
组 是 正 交 的 ， 如 果 满 足 aj'aj 二 6; (0; 一 0， 当 1 了 7 ; 0; 二 1， 当 1 一 j)， 则 称 此 矢量 组 是 标 
准 正 交 的 。 更 一 般 地 , 在 维 实数 空 间 中 的 子 空间 {Si1,S;:,…,S,}) 称 为 相互 正 交 ， 是 指 如 
果 xES; 和 yES;， 并且 i 关 ) SUB x'y —0, 

—^r n 维 子 空间 S 的 正 交 补 定义 为 


S-— (y€n 维 空 间 |x'y 一 0,， x€S) 


如 果 矢 量 组 { {aly ay，， …,a4) 是 标准 正 交 的 并 张 成 n 维 子 空 [a s. 则 称 矢 量 组 (al ,ay，，…， 
构成 子 空间 的 一 个 标准 正 交 基 。 它 总 可 以 扩充 为 n 维 空间 的 一 组 完全 的 标准 正 交 基 {a1， 
55.7.0, s "* ns) o 此 时 
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TE^ WIESE YE EAE UTERE B. AKERRA RERE ERKA, XE R E qa CRAB 
阵 范 数 是 非常 有 用 的 。 

1. 矢量 范 数 

在 nn 维 实数 空间 的 矢量 x 的 范 数 是 一 个 这 样 的 函数 f(x)， 它 具有 下 列 性 质 . 

f(x) 宇 0 对 所 有 的 ?2 维 实数 空间 矢量 x， 等 号 当 且 仅 当 x 一 0 时 成 立 ; 

f(x 二 Ty) 三 f(x) 十 f(y) 对 所 有 的 2” 维 实数 空间 矢量 x 和 y 成 立 ; 

flax) 二 lalf(x) 对 所 有 的 n 维 实数 空间 矢量 x 成 立 。 

我 们 用 | x | 表示 该 函数 f(x)， 在 双 竖 线 下 加 下 标 来 区 别 不 同 的 范 数 。 

一 种 有 用 的 范 数 是 Holder 范 数 或 称 p 范 数 ， 其 定义 为 


lx ll p= dreil +lz l? +t le, |2) (11-43) 


















































式 中 





lx lom Call xu 1 范 数 
xl 一 (Clzil2 十 |zy12 十 … 十 |zv 12)72 2 范 数 
| x || s maxClx; D 极 大 范 数 
这 3 个 范 数 是 最 重要 的 范 数 。 关 于 2 范 数 的 一 个 古典 结论 是 Holder 不 等 式 
|xty lx xls lyla 1/p--1/q—1 
它 的 一 个 非常 重要 的 特殊 情况 是 Cauchy-Schwatz 不 等 式 : 





Ix'y |<] xl ll yl 2 
其 中 ， 在 正 交 变换 下 2 范 数 是 不 变 的 ， 因 为 如 果 QS, 
| Qx || 2—x'Q'Qx—x'x— || x l$ 








2. 和 矩阵 范 数 

矩阵 范 数 的 定义 与 矢量 范 数 的 定义 应 当 是 等 价 的 ， 在 实数 空间 的 矩阵 4 的 范 数 f CA ) h, 
具有 下 列 性 质 : 

FAO 对 所 有 的 实数 空间 矩 阵 4， 等 号 当 且 仅 当 4 一 0 时 成 立 ; 

f(A 二 TB) 三 f (4) 十 f(B) 对 所 有 的 实数 空间 和 矩阵 A 和 B 成 立 ; 

faA)= lal fA) 对 所 有 的 实数 空间 矩阵 4 成 立 。 
HIA | 表示 该 函数 FA)， 与 矢量 范 数 一 样 ， 抢 阵 范 数 也 用 加 双 竖 线 来 表示 。 
在 数值 分 析 中 ， 最 常用 的 范 数 是 Fronenius 范 数 或 称 BBXI F 范 数 ， 其 定义 为 


lA ll g— (OX Ela; [2»v2 (11-44) 



































FU p 范 数 
lA I p —supCll Ax ll 5/ lx ll 5) (11-45) 


在 本 定义 中 的 p WREN 15 AR HEY COL SE XUL p 范 数 。 注 意 ， 在 此 定义 的 矩阵 的 
b iB iE — xiu. ARPERU 范 数 具 有 下 述 性 质 : 
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| AB | <All EB Hs 
| Ax ll; lA ls lxl, 


特别 地 ， 德 阵 的 Frobenius 范 数 和 2 20 GEE p 范 数 的 一 种 ) 在 正 交 变换 下 是 不 变 的 ， 对 
所 有 的 维 数 合 适 的 正 交 和 矩阵 O 和 P 有 


| QAP |;— lA ll 





| QAP | r= ÍA || F 


五 、 张 量 
已 知 两 个 矢量 的 外 积 产生 一 个 和 矩阵， 即 


a ajbj aib? -** aj, 


azb: 4305. * azbm 


a2 
ab' = Š [561.55 ,Dj 二 
an a 4b, anb2 Ut anb ,, 


然而 ， 对 于 三 个 矢量 的 外 积 ， 用 上 述 方法 就 很 难 表 出 了 。 为 此 ， 定 义 aCObCOe Ha, b. 
c 这 三 个 矢量 的 外 积 ， 它 的 结果 将 产生 一 个 形 如 立体 的 数据 ， 在 此 记 为 G， 即 


G —aC)b 9e — (Gig ) (41,2, n ;j—10.2.7.m ;k=1,2,.…,d) 


这 样 由 三 个 矢量 的 外 积 产 生 的 张 量 ， 一 般 称 为 三 线性 张 量 ， 这 种 三 线性 张 量 在 多 元 分 辨 中 有 
着 特殊 重要 的 地 位 。 在 化 学 计量 学 中 ， 一般 都 是 把 这 样 的 三 维 张 量 展开 成 矩阵 来 计算 。 
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附 录 


1 “化 学 计量 学 中 第 用 名 词 及 符号 说 明 


一 、 化 学 计量 学 中 常用 名 词 中 英文 对 照 表 

































































A 
ASTM 红外 光谱 索引 ASTM infrared spectral index 
B 
Bayes 判别 法 Bayes discrimination 
半 因 子 设 计 法 half-Fraction factorial design 
半 正 定 positive semidefinite 
饱和 设计 saturated design 
饱和 了 D- 最 优 设计 saturated D-optimal design 
前 溃 点 breakdown point 
比特 bi 
变 尺 度 法 variant scale method 
变量 variable 
变换 transformation 
编码 coding 
编码 信息 量 coding information 
编码 效率 coding efficiency. CE 
变 步 长 通用 模拟 退火 法 variable step-size generalized simulated annealing 
标准 加 入 迭代 目标 转换 因子 分 析 法 standard addition iterative target transformation factor analysis 
标准 化 normalization 
病态 体系 ill-conditioned system 
波动 噪声 fluctuation or flicker noise 
波 数 wave number，WN 
波长 wave length. à 
不 等 性 方差 heteroscedastic variance 
部 分 因子 设计 fractional factorial design 
不 确定 度 uncertainty 
C 
采样 理论 sampling theory 
采样 常数 sampling constants 
残 差 正 态 图 residual normal plot 


残 差 双 线 性 分 解法 residual bilinearization 
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产生 子 generator 

产生 式 规则 表达 generating rule expressing 

RE power method 

乘 同 余 法 multiple congruential method 

窗口 Fourier 变换 windowed Fourier Transform. WET 
窗口 移动 平均 法 window moving average method 

窗口 移动 中 位 数 平 滑 window moving median smoothing 
窗口 因子 分 析 法 window factor analysis 

重复 中 位 数 法 repeated median method 

纯 分 析 信和 号 net analytical signal, NAS 
纯 分 析 物 种 的 秩 net analyte rank, NAR 

尺度 scaling 

尺度 函数 scaling function 

尺度 滤波 scaling filter 

尺度 向 量 scaling vector 

次 轴 secondary axes 

抽检 特性 曲线 operating characteristic curve 

抽出 误差 extracted error, XE 

粗糙 惩罚 平滑 法 roughness penalty smoothing method 
f Ti cluster terms 


TRZ B T vr BURG soft independent modeling of class analogy. SIMCA 


D 


D- 最 优 设计 D-optimal design 



























































代表 性 采样 representative sampling 

单位 和 矩阵 identity matrix 

单纯 形 优 化 simplex optimization 

单纯 形 试验 设计 法 simplex experiment design 

单纯 形 格子 点 simplex lattice point 

单纯 形 格子 设计 simplex lattice design 

单纯 形 重心 设计 simplex gravity center design 

单个 中 位 数 法 single median method 

等 价 定理 equivalence law 

等 性 方差 homoscedastic variance 

f$ 4 AB EE scores matrix 

迭代 目标 转换 因子 分 析 法 iterative target transformation factor analysis 
定义 关系 defining relation 

定义 相反 defining contrast 

定量 结构 活性 关系 研究 quantitative structure-activity relationship. QSAR 
定量 结构 性 质 关 系 研 究 quantitative structure-property relationship. QSPR 
定量 测定 限 quantitative detection limit 

独立 性 independence 

短 时 傅 里 叶 变 换 short time Fourier transform, STFT 

对 称 和 矩阵 symmetric matrix 

Zip multistep method 


multiresolution 


多 分 辩 


多 分 辩 分 析 

多 分 辨 信号 分 解 
多 环 芳烃 
Zo 

多 元 校正 

多 元 线性 回归 方法 








二 次 饱和 D- 最 优 设计 


下 -分布 

下 -检验 

Fisher 判别 法 
范围 标 度 化 
方差 分 析 

方差 平方 和 法 
方 阵 

非 均 匀 性 
非 奇 异 矩 阵 

非 线性 分 析 体 系 




















非 线 性 迭代 偏 最 小 二 乘 算法 


分 辩 率 
分 布 
分 隔 

分 块 矩 阵 
分 析 化 学 品质 因数 
分 析 信 号 

分 析 信 息 理论 

分 析 物 -内 标 参 考 相 关 法 
分 子 结构 编辑 模块 
分 子 连接 性 指数 

分 子 拓扑 指数 

分 子 图 

分 子 识别 数 
傅 里 叶 变 换 





z 





























Je pot 
杠杆 点 
刚性 微分 方程 
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multiresolution analysis 

multiresolution signal decomposition. MRSD 
polycycle aromatic hydrocarbons. PAH 
multivariate resolution 


multivariate calibration 








multiple linear regression 
E 
second-order saturated D-optimal design 


F 


Fisher distributions 

F-test 

Fisher discrimination 

range scaling 

analysis of variance 

variance squares method 

square matrix 

heterogeneity 

non-singular matrix 

non-linear analytical systems 

nonlinear iterative partial least squares. NIPALS 
resolution 

distribution 

stratified sampling 

segregation 

partitioned matrices 

figures of merit of analytical chemistry 
analytical signal 

analytical information theory 
analyte-internal reference correlated method. AIRCM 
molecular structure editor 


molecular connectivity index 


molecular graph 





1 
1 
molecular topological index 
1 
1 


molecular identification number 


Fourier transformation 


perceptron 

leverage point 

stiff differential equations 
information power 
conjugated effect 
conjugate gradient 


confounded 
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Gy 理论 Gys theory 
固定 尺 才 移动 窗口 渐进 因子 分 析 法 fix-sized moving window evolving factor analysis 
光谱 多 重 性 效益 multichannel advantage in spectroscopy 
广度 优先 搜索 breadth-first search 
”“ 义 内 标 法 generalized internal reference method 
广义 道 generalized inverse 
“ 义 秩 消失 因子 分 析 法 generalized rank annihilation factor analysis 
惯量 因子 momentum factor 
H 
Hadamard 变换 Hadamard transformation 
Hammetto 常数 Hammett o constant 
行列 式 determinant 
行 满 秩 row full rank 
ÍTR E row vector 
好 格子 点 法 good lattice point 
活性 函数 activation function 
荷载 矩阵 loadings matrix 
互信 息 mutual information 
化 学 模式 识别 chemical pattern recognition 
化 学 专家 系统 chemical expert system 
化 学 知识 系统 chemical knowledge-based system 
化 学 振荡 反应 chemical oscillating reaction 
回归 距离 和 regressive distance sums 
回归 顶点 点 价 regressive vertex degrees 
回溯 backtrack 
混合 同 余 法 mixed congruential method 
混 料 试验 设计 mixture experiment design 
J 
极 大 似 然 估计 maximum likelihood estimator 
计算 机 数字 模拟 法 computer numerical simulation 
计量 抽样 检验 amounting sample test 
计数 抽样 检验 numbering sample test 
甘于 数论 方法 的 序 贯 优化 法 sequential number-theoretic optimization method 
加 权 最 小 二 乘 回 归 法 weighted least squares regression 
交叉 校 验 法 cross-validation 
交叉 效应 interactive effect 
交互 效应 表 interaction effect tables 
检测 限 detection limit 
简易 分 类 算法 simple classification algorithm, SIMCA 
间接 校正 方法 indirect calibration methods 
渐进 因子 分 析 法 evolving factor analysis 
结构 图 structural or constitutional graph 
结构 解析 elucidation of Structure 





结构 主干 structure backbone 








经 典 诊 断 方法 

局 部 顶点 不 变数 
局 部 优化 算法 

局 部 曲线 拟 合法 
局 部 因子 分 析 
句法 模式 识别 技术 
聚 类 分 析 法 
距离 判别 法 
和 矩阵 校正 方法 
JE Pe BU Ek 
D 
D 
D 





E 阵 分 辩 方 法 
E 阵 的 迹 
pe 

















兼并 性 或 退化 性 
卷 积 
均匀 分 布 的 伪 随 机 数 
均匀 设计 
均匀 设计 表 
均匀 性 
均匀 性 准则 

















开 - 和 矩阵 法 

开 - 均 值 聚 类 法 
开 - 最 近邻 法 
Kalman 滤波 
Kalman 增益 
颗粒 性 质 因子 
可 疑 度 

可 接受 质量 水 3 
可 变 类 平均 法 
可 变法 
可 靠 性 分 析 
控制 -推理 器 模块 
快速 傅 里 叶 变 换 














hi 














离 差 矩阵 
离散 傅 里 叶 变 换 
离散 小 波 变换 
粒状 物质 
立体 效应 常数 
连接 函数 





基于 全 局 寻 优 的 聚 类 法 


附录 


classic diagnostic methods 

local vertex invariants, LOVT's 
local optimal method 

local curve fitting method 

local factor analysis 


syntactic pattern recognition 





clustering analysis 

distance discrimination method 
matrix calibration method 
rank of matrix 

matrix resolution method 


trace of matrix 





matrix 

clustering method based on global optimization 
degeneracy 

convolution 

quasi-crandom number of uniform distribution 
uniform experimental design 

uniform design table 

homogeneity 


criterion for uniformity 
K 


K-matrix method 

K -means clustering method 
K -nearest neighbor classification method, K-NN 
Kalman filtering 

Kalman gain 

particle property factor 
equivocation 

acceptable quality level 
variable class average method 
variable method 

reliability analysis 
controller-reasoner 


fast fourier transform. FFT 
L 


latin square 

class average method 

dispersion matrix 

discrete Fourier transform. DFT 
discrete wavelet transformation 
granular material 

steric effect parameters 


connectivity function 
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列 满 秩 
邻接 矩阵 
临界 水 平 值 
岭 回 归 法 
灵敏 度 
龙 格 - 库 塔 法 
逻辑 表达 
路 径 项 
路 径 / 簇 项 











M 估计 法 
马 氏 距离 
帽子 矩阵 
育 目 搜索 
TE FAE PE 
模 

模糊 聚 类 法 

模拟 退火 法 
模式 空间 

模式 空间 的 距离 
Monte Carlo 模拟 
Moore-Penrose 逆 
目标 

目标 引导 








AUS 

内 标 法 
内 部 相关 
内 积 
拟 水 平均 匀 设 计 
逆向 推理 
逆 和 矩阵 
牛顿 法 











欧 氏 距离 


已 -矩阵 法 
判别 分 析 法 
判决 面 








chain terms 
column vector 
column full rank 
adjacency matrix 
transition level 
ridge regression 
ridge trace plot 
sensitivity 
Range-Kutta method 
logical expressing 
path terms 


path/cluster terms 
M 


M-estimation 
Mahalanobis distance 
hat matrix 

blind search 

idempotent matrix 
norm 

fuzzy clustering method 
simulated annealing method 
pattern space 

distance in pattern space 
Monte Carlo simulation 
Moore-Penrose inverse 
object 


goal-directed 
N 


nat 

internal reference method. IRM 
inner relation 

inner product 

pseudo-level design 

inverse reasoning 

inverse matrix 


Newton method 
(0) 

Euclidean distance 
P 


P-matrix method 
discrimination method 


discrimination plane 


批 不 合格 品 百分数 的 允许 界限 


偏差 
偏 置 
偏 最 小 二 乘法 


偏 最 小 二 乘 的 投影 判别 法 


平滑 方法 
平移 
Powell 法 





奇异 矩阵 
奇异 值 分 解法 
启发 式 分 类 
启发 式 搜索 

前 传 网 络 误差 反 传 算法 
取代 基 
取代 基 电 子 效 应 常数 
全 局 优化 算法 

全 局 因子 分 析 法 






































Randic 分 支 指数 

人 工 神 经 网 络 判 别 法 
人 工 智能 

宛 余 信息 





























SIMCA 分 类 法 
s 型 非 线 性 函数 
hài 
散 度 

神经 纤维 

神经 元 

深度 优先 搜索 
识别 率 

矢量 

矢量 校正 方法 

释放 因子 

四 分 之 一 因子 设计 法 
势 函 数 判 别 法 
剩余 标准 偏差 
双 线 性 矩阵 
数据 库 管 理 模块 
数据 推动 
数据 预 处 理 
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lot tolerance percent defective 
discrepancy; deviation 

biases 

partial least squares 

projection discrimination based on PLS 
Smooth method 

shift or translation 


Powell method 


Q 


singular matrix 

single value decomposition, SVD 
heuristic classification 

heuristic search 

back-propagation, BP 

substituent 

substituent electronic effect constant 
global optimal method 


global factor analysis 
R 


Randic branch index 

artificial neural network 

discrimination based on artificial neural network 
artificial intelligence 


redundancy 


S 


SIMCA classification 

sigmoid nonlinearity function 
entropy 

divergence 

nerve fibres 

neuron 

depth-first search 

recognition ratio 

vector 

vector calibration method 
liberation factor 

quarter-fraction factorial design 
potential function discrimination 
residual standard deviation, RSD 
biliear matrix 

librarian 

data-driven 


data preprocessing 
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数据 专家 模块 

数字 模拟 方法 
PES 

苏 尔 效 分 子 拓扑 指数 
顺序 秩 分 析 方 法 
随机 变量 的 数值 特征 
随机 采样 
随机 事件 
随机 变量 


所 有 顶点 的 均 方 距离 指标 














tI S 

1- 分 布 
塔 式 算法 
台 劳 级 数 法 
梯度 法 
ZENER 
正 抽取 方法 
征 空 间 


和 
和 

特征 矢量 
f 
和 




















征 投影 的 模式 识别 方法 














统一 匀 线 性 多 元 分 析 
同名 或 别名 
通用 标准 加 入 法 
投影 算法 
投影 寻 踪 法 
投影 指标 
投影 寻 踪 回归 
投影 寻 踪 分 类 
投影 寻 踪 密度 估计 
投影 旋转 因子 分 析 法 


















































突 触 
图 像 处 理 
椭 球 多 变量 修剪 法 





Wiener 拓扑 数 
伪 随 机 数 
稳健 校正 
稳健 主 成 分 回归 
稳健 偏 最 小 二 乘法 
稳健 诊断 方法 
稳健 距离 











data expert 

digital simulation 

searching tree 

Schultz molecular topological indices 
sequential rank analysis 

numerical feature of random variable 
random sampling 

random events 

random variable 


mean-square distance between all vertexes 


T 


t-test 

t-distribution 

pyramid algorithm 

taylor series method 

gradient method 

conditional entropy 

feature extraction 

feature space 

eigenvector 

pattern recognition by latent projection 

eigenvalue 

statistical isolinear multiple component analysis, SIMCA 
alias 

generalized standard addition method 

projection algorithm 

projection pursui 
projection index 
projection pursuit regression 


projection pursuit classification 





projection pursuit density estimation 


projection rotation factor analysis 





projection matrix 
dendrirtes 
image processing 


ellipsoidal multivariate trimming, MVT 
W 


Wiener topological index 
quasi-random number 

robust calibration 

robust principal component regression 
robust partial least squares 

robust diagnostic method 


robust distance 


稳健 主 成 分 分 析 
稳健 奇异 值 分 解法 
无 监督 的 模式 识别 





TH 





RARR 
系统 聚 类 法 
线性 比率 内 标 法 
线性 不 相关 
线性 相关 
线性 自由 能 
线性 自由 能 关系 
线性 图 
线性 学 习 机 
线性 判别 函数 法 
线性 组 合 设 计 
限制 发 生 器 








小 波 函 数 

小 波多 分 辨 变换 
小 波 域 
兴奋 剂 


信道 容量 











ES 
信息 效率 

CL T 

选择 性 

学 生 分 布 统计 量 








样本 

样本 对 象 

一 次 饱和 D- 最 优 设计 
一 点 设计 
一 分 为 二 法 

一 阶 谓 词 逻辑 








子 分 析 的 误差 理论 
子 设计 


子 设计 分 辩 率 








机 反应 性 相关 分 析 


监督 的 模式 识别 








d zb 8s ES DU DH DH DE 
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robust principal component analysis, RPCA 
robust single value decomposition, RSVD 


unsupervised pattern recognition 


systematic sampling 

hierarchical clustering method 

ine ratio internal reference method, LRIRM 
inearly independent 

inearly dependent 

inear free-energy 

inear free-energy relationship 

inear graph 

inear learning machine 


inear discrimination function method 





inear combinatorial design 
constrained generator, CONGEN 
similarity 

response 

wavelet function 

wavelet multiresolution transformation 
wavelet domain 

agonist 

channel capacity 

information content 

information profitability 
signal-to-noise ratio, SNR 
selectivity 


student Distribution statistics 
Y 


sample 

object 

first-order saturated D-optimal design 
single point design 

one divided in two method 

first order predicate logic, FOPL 
genetic algorithm 

factor analysis 

error theory of factor analysis 
factorial design 

resolution of factorial design 

hidden layer 

hydrogen-depleted graph 

correlation analysis of organic reactivity 


supervised pattern recognition 
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有 监督 的 学 习 
有 偏 估计 方法 
有 限 总 体 校正 
诱导 效应 

与 /或 图 

BÀ f 

预测 率 
语义 网 络 表达 
原子 质量 单位 





约束 背景 双 线 性 分 解 





E 
Æ 
"W 
































> oW S 
过 




















正 交 投影 分 辨 法 
正 态 分 布 的 伪 随 机 数 
正 态 分 布 

TE ZZ E KE 

正 交 性 

振荡 

诊断 方法 
“钟乳石 图 ” 

真实 误差 

中 间距 离 法 

中 位 数 

重心 法 

主 成 分 回归 法 

主 成 分 投影 判别 法 
主 效应 

主轴 

逐步 判别 分 析 法 
TS 

子 窗口 因子 分 析 法 
子 空间 


自 标 度 化 

















supervised learning 

biased estimating method 
finite population correction 
inducing effect 
AND/OR-graph 

threshold 

prediction ratio 

semantic net expressing 
atom mass unit, AMU 


constrained background bilinearization 
Z 


shot noise 

tensor 

tensor rosolution method 
tensor calibration theory 
heuristic evolving latent projections 
direct calibration method 
imbedded error 

knowledge expressing 

rank annihilation factor analysis 
positive definite 

orthogonal design 

orthogonal arrays 

orthogonal projection matrix 


orthogonal projection resolution 


quasi-random numbers of normal distribution 


normal distributions 
orthogonal matrix 
orthogonality 

oscillation 

diagnostic methods 

stalactite plot 

real error, RE 

medium distance method 
median 

gravity center method 
principal component regression 
projection discrimination based on PCA 
main effect 

primary axes 

stepwise discrimination method 
transpose 

subwindow factor analysis 
subspace 


autoscaling 


T 


适应 Kalman 滤波 法 
适应 线性 元 

模式 曲线 分 辨 法 

阻 滞 剂 
组 成 因子 
最 长 距离 法 
最 短 距离 法 
最 小 采样 数目 
最 小 体积 椭 球 估计 
最 小 中 位 平方 法 
最 小 修剪 平方 法 
最 小 一 乘法 
最 小 生成 树 

最 优 试验 设计 
坐标 轮换 法 





T 





T 








det (A) 

tr CA) 

cond (A) 
rank (A) 
diag C *) 
dA /dt 

la || 

lall 
lal, 
E(a), Ela) 
var (a) 

Cov (a) 
Nu, o?) 
Nu., oI) 
R(A) 

span (di. a2, *, an} 
t 

tR 

NCA) 


adaptive Kalman filtering 
adalnei 

self-modeling curve resolution 
blocker 

composition factor 

maximum distance method 
minimum distance method 
minimum number of samples 
minimum volume ellipsoid estimates, MVE 
least median of squares 

least trimmed squares 

least absolute residuals 
minimun spanning tree 
optimal design 


coordinate changing method 

二 、 符 号 说 明 

吸光 度 

AREE A 的 广义 逆 或 称 Moore-Penrose 3 


和 矩阵 
转 置 矩 阵 








行 矢量 

Xq) 阶 和 矩阵 4， 即 矩阵 4 F4 pfrq Fl 
单位 矩阵 

所 有 分 量 丝 为 1 的 列 矢 量 

所 有 分 量 丝 为 0 的 列 矢 量 

的 行列 式 

阵 A 的 迹 

阵 A 的 条 件数 

阵 A 的 秩 

fap PE 
VEA 的 导数 矩阵 

Ea 的 长 度 

阵 A 的 范 数 

阵 4 的 Frobenius 范 数 

随机 变量 a 或 随机 矢量 a 的 均值 
随机 变量 a 的 方差 
随机 矢量 a 的 协 方差 阵 
均值 为 ww， 方差 为 c2? 的 正 态 分 布 

均值 为 u, WEZEN o? 了 的 多 元 正 态 分 布 
ABE A 的 值 域 子 空间 

REHA (ai. ass cs an) 张 成 的 子 空间 
时 间 
保留 时 间 

HEA 的 零 子 空间 
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abe 为 a 
G., M. -- 张 量 
质量 


mn 


wb. c 这 3 个 矢量 的 外 积 ， 它 的 结果 将 产生 一 个 三 维 张 量 


À 波长 





I {EM MATLAB 语言 


进行 化 学 计量 学 研究 编程 运算 简介 


一 、MATLAB 语言 简介 


MATLAB 是 美国 MathWorks 公司 出 品 的 商业 数学 软件 ， 用 于 算法 开发 、 数 据 可 视 化 、 
数据 分 析 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 ， 主 要 包括 MATLAB 和 Simulink 
两 大 部 分 。MATLAB 是 matrix&-laboratory 两 个 词 的 组 合 ， 意 为 矩阵 工厂 〈 和 抢 阵 实验 富 ) 。 
是 由 美国 mathworks 公司 发 布 的 主要 面 对 科 学 计算 、 可 视 化 以 及 交互 式 程序 设计 的 高 科技 
计算 环境 。 它 将 数值 分 析 、 和 抢 阵 计算 、 科 学 数据 可 视 化 以 及 非 线性 动态 系统 的 建 模 和 仿真 等 
诸多 强大 功能 集成 在 一 个 易于 使 用 的 视窗 环境 中 ， 为 科学 研究 、 工 程 设 计 以 及 必须 进行 有 效 
数值 计算 的 众多 科学 领域 提供 了 一 种 全 面 的 解决 方案 ， 并 在 很 大 程度 上 摆脱 了 传统 非 交 互 式 
程序 设计 语言 (如 C、Fortran) 的 编辑 模式 ， 代 表 了 当今 国际 科学 计算 软件 的 先进 水 平 。 

MATLAB 和 Mathematica、Maple 并 称 为 三 大 数学 软件 。 它 在 数学 类 科技 应 用 软件 中 
在 数值 计算 方面 首届 一 指 。MATLAB 可 以 进行 矩阵 运算 、 绘 制 函 数 和 数据 、 实 现 算 法 、 创 
建 用 户 界 面 、 连 接 其 他 编程 语言 的 程序 等 ， 主 要 应 用 于 工程 计算 、 控 制 设 计 、 信 号 处 理 与 通 
讯 、 图 像 处 理 、 信 和 号 检测 、 金 融 建 模 设 计 与 分 析 等 领域 。 

MATLAB 的 基本 数据 单位 是 矩阵 ， 它 的 指令 表达 式 与 数学 、 工 程 中 常用 的 形式 十 分 相 
似 ， 故 用 MATLAB 来 解 算 问 题 比 用 C、FORTRAN 等 语言 完成 相同 的 事情 要 简捷 得 多 ， 
并 且 MATLAB 也 吸收 了 像 Maple 等 软件 的 优点 ， 使 MATLAB 成 为 一 个 强大 的 数学 软件 。 
在 新 的 版 本 中 也 加 入 了 对 C、FORTRAN、C++、JAVA 的 支持 。 



















































































二 、MATLAB 与 化 学 计量 学 


化 学 计量 学 研究 需 大 量 地 使 用 到 数学 、 统 计 学 和 计算 机 科学 知识 ， 同 时 还 须 编制 计算 书 
程序 ， 计 算 机 程序 是 进行 化 学 计量 学 研究 的 必要 基础 。 然 而 ， 用 经 典 高 级 语言 编制 程序 是 繁 
杂 的 ， 消 耗 大 量 人 力 与 物力 且 工 作 进 度 缓慢 ， 效 率 不 高 。 随 着 计算 机 科学 的 飞速 发 展 ， 编 制 
程序 的 方法 也 在 长 足 进 步 ， 由 美国 Mathwork 公司 推出 的 MATLAB 是 一 种 功能 强 、 效 率 
高 、 便 于 进行 科学 和 工程 计算 的 交互 式 软 件 包 。 它 提供 了 一 种 全 新 的 编程 语言 ， 其 语法 规则 
简单 ， 很 贴近 数学 运算 思维 方式 。 用 MATLAB 编写 程序 ， 犹 如 在 一 张 演算 纸 上 排 列 公 式 和 
求解 问题 ， 编 程 效率 很 高 ， 因 此 称 为 “演算 纸 式 的 ”科学 工程 的 算法 语言 。 

由 于 使 用 的 化 学 计量 学 程序 大 多 数 都 须 涉 及 大 量 的 矩阵 运算 ， 如 采用 一 般 高 级 语言 ， 如 
BASIC, FORTRAN, PASCAL 和 C 语 言 ， 来 进行 矩阵 运算 ， 不 但 需要 很 多 子 程序 ， 而 且 
有 些 较 新 的 算法 ， 如 奇异 值 分 解 、 广 义 特征 值 问 题 的 QZ 算法 、 人 工 神 经 网 络 、 小 波 分 析 
等 ， 还 很 难 找到 这 些 高 级 语言 的 相应 的 子 程序 。 这 就 使 化 学 计量 学 研究 成 果 的 普及 受到 一 定 
程度 的 限制 。 而 MATLAB 是 由 和 矩阵 的 英语 单词 MATRIX 和 实验 室 的 英语 单词 LABORA- 
TORY 的 前 三 个 字母 组 成 的 ， 可 以 看 出 MATLAB 语言 在 矩阵 运算 方面 有 独特 优势 ， 运 算 
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特别 简捷 、 高 效 和 方便 。 在 化 学 计量 学 研究 和 应 用 中 ， 由 于 大 都 是 进行 多 变量 运算 ,矢量 和 
和 矩阵 是 基本 运算 单元 ， 所 以 ，MATLAB 语言 很 快 就 成 为 其 研究 的 主要 工具 ，MATLAB H 
前 国际 上 两 本 化 学 计量 学 专业 杂志 , 《Journal of Chemometris》 和 《Chemometrics and In- 
telligent Laboratory Systems》 多 次 对 其 进行 了 专门 的 介绍 ， 使 其 几乎 成 为 进行 化 学 计量 学 
人 研究 的 特定 计算 机 编程 语言 ， 很 多 化 学 计量 学 的 新 算法 在 发 表 时 ， 还 都 附 上 了 MATLAB 语 
言 所 编制 的 程序 。 要 想 在 我 国 普及 化 学 计量 学 ， 掌 握 使 用 MATLAB 语言 很 有 必要 。MAT- 
LAB 语言 是 一 种 类 似 于 一 般 高 级 语言 编程 的 更 高 级 语言 ， 它 不 但 保持 了 一 般 高 级 语言 特征 ， 
还 特别 地 注意 到 了 人 机 交互 信息 的 优点 〈 从 这 一 角度 来 看 ， 它 与 BASIC 语言 很 类 似 ) ， 可 将 
一 个 复杂 编程 来 分 步 进行 调试 ， 特 别 适 合 进行 新 的 算法 研究 。 而 且 ， 随 着 MATLAB 版 本 的 
不 断 更 新 ， 其 功能 越 来 越 强 ， 它 所 附带 的 一 些 工具 箱 (Tool Box)， 使 之 在 诸如 一 般 数 值 计 
算 、 多 元 统计 分 析 、 化 学 计量 学 、 数 字 信 号 处 理 、 系 统 识 别 、 自 动 控制 、 振 动 理论 、 时 序 分 
析 与 建 模 、 优 化 设计 、 人 工 神经 网 络 、 动 态 仿真 系统 、 小 波 分 析 、 特 殊 函 数 等 领域 ， 表 现 出 
般 计 算 机 高 级 语言 难以 比拟 的 优势 。 特 别 值得 提出 的 是 ，MATLAB 语言 还 直接 提供 了 强 
有 力 的 绘图 指令 ， 如 绘制 三 维 图 、 等 高 线 图 等 ,一 些 在 一 般 高 级 语言 中 难以 实现 的 绘图 功 
能 ， 在 MATLAB 语言 中 ,一 个 指令 就 可 完成 。 为 化 学 计量 学 研究 工作 者 提供 了 极 大 的 方 
便 ， 可 使 我 们 摆脱 一 些 在 计算 机 编程 方面 的 技术 性 操作 ， 而 将 主要 精力 集中 到 化 学 计量 学 新 
算法 的 思路 研究 之 上 。 

随 着 计算 机 科学 的 不 断 普 及 ， 有 关 MATLAB 语言 的 书籍 (MATLAB 从 入 门 到 精通 
等 ) 及 网 络 论坛 (MATLAB 中 文 论坛 www. iLoveMATLAB. cn 和 MATLAB 技术 论坛 
www. MATLABsky. com) 也 相继 出 现 。 在 这 些 书籍 中 ， 主 要 介绍 MATLAB 语言 的 一 些 基 
本 知识 和 概念 ， 读 者 参阅 这 些 书籍 ， 即 可 方便 地 知道 MATLAB 系统 要 素 、MATLAB 语言 
的 变量 与 语句 操作 、 数 值 输 入 输出 格式 、 和 矩阵 分 析 与 数值 符号 运算 处 理 、 程 序 设计 及 绘图 操 
作 、 以 及 在 线 帮 助 功能 等 ， 对 于 这 些 知识 在 此 就 不 作 详细 介绍 了 。 其 实 ， 学习 MATLAB 语 
言 ， 如 果 读 者 已 有 高 级 语言 的 基础 ， 最 多 只 要 一 星期 或 更 短 的 时 间 就 可 完全 进入 角色 ， 至 于 
一 些 细节 ， 读 者 可 在 继续 的 实践 中 不 断 提高 ， 也 可 以 在 MATLAB 相关 论坛 里 学 习 交 流 。 在 
这 里 ， 我 们 给 出 的 就 是 一 些 让 读者 可 直接 进入 MATLAB 编制 化 学 计量 学 一 般 程 序 的 一 些 最 
基本 知识 ， 和 希望 读者 经 过 阅读 本 节 ， 对 怎样 使 用 MATLAB 语言 来 进行 化 学 计量 学 研究 有 个 大 致 
了 解 。 有 关 MATLAB 语言 的 一 些 细节 问题 ， 和 希望 读者 参阅 有 关 MATLAB 语言 介绍 的 专门 书籍 。 


































































































三 、MATLAB 系统 简介 


MATLAB 系统 是 由 美国 Mathworks 公司 推出 的 用 于 数值 计算 和 图 形 处 理 的 科学 计算 
系统 环境 ，MATLAB 软件 目前 每 半年 更 新 一 次 ,每 次 都 会 进行 相关 功能 优化 、 更 新 和 章 
增 。MATLAB 是 英文 MATRIX LABORATORY GEREKE) 缩写 。 它 集中 了 日 常数 学 
处 理 中 的 各 种 功能 ， 包 括 高 效 的 数值 计算 、 和 矩阵 计算 、 信 息 处 理 和 图 形 生成 等 功能 。 在 
MATLAB 环境 下 ， 用 户 可 以 集成 地 进行 程序 设计 、 数 值 计算 、 图 形 控制 、 输 入 输出 、 文 件 
管理 等 各 项 操作 。 

MATLAB 提供 了 一 个 人 机 交互 的 数学 系统 环境 ， 该 系统 的 基本 数据 结构 是 和 矩阵， 在 构 
成 矩阵 对 象 时 ， 不 要 求 明 确 的 维 数 说 明 。 与 利用 C 语言 或 FORTRAN 语言 做 数值 计算 的 程 
序 设计 相 比 ， 利 用 MATLAB 可 以 节省 大 量 的 编程 时 间 。 在 美国 的 一 些 大 学 里 ，MATLAB 
正在 成 为 对 数值 线性 代数 以 及 其 他 一 些 高 等 应 用 数学 课程 进行 辅助 教学 的 有 益 工 具 。 在 化 学 
计量 学 研究 中 ，MATLAB 是 一 种 很 好 的 算法 研究 工具 。 

MATLAB 系统 由 五 个 主要 部 分 组 成 ， 下 面 分 别 加 以 介绍 。 
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(D MATLAB 语言 体系 MATLAB 是 高 层次 的 矩阵 /数组 语言 ， 具 有 条 件 控制 、 函 数 
调用 、 数 据 结构 、 输 入 输出 、 面 向 对 象 等 程序 语言 特征 。 利 用 它 既 可 以 进行 小 规模 编程 ， 完 
成 算法 设计 和 算法 实验 的 基本 任务 ， 也 可 以 进行 大 规模 编程 ， 开 发 复杂 的 应 用 程序 。 

(2) MATLAB 工作 环境 MATLAB 工作 环境 是 MATLAB 提供 给 用 户 使 用 的 管理 功 
能 的 总 称 ， 包 括 管理 工作 空间 中 的 变量 ， 数 据 输 入 输出 的 方式 和 方法 ， 以 及 开发 、 调 试 、 管 
理 文 件 的 各 种 工具 。 

(3) 图 形 句柄 Chandle 系统 图 形 句柄 系统 是 MATLAB 图 形 系 统 的 基础 ， 包 括 完 成 
数据 图 示 、 图 像 处 理 、 动 画 生 成 、 图 形 显示 等 功能 的 高 屋 MATLAB 命令 ， 也 包括 用 户 对 图 
形 图 像 等 对 象 进行 特性 控制 的 低层 MATLAB 命令 ， 以 及 开发 应 用 程序 的 各 种 工具 。 

(4) MATLAB 数学 函数 库 ”这 是 对 MATLAB 使 用 的 各 种 数学 算法 的 总 称 ， 包 括 各 种 
初等 函数 的 算法 ， 也 包括 矩阵 运算 、 抑 阵 分 析 等 高 层次 数学 算法 。 

(5) MATLAB 应 用 程序 接口 (APD MATLAB 为 用 户 提供 了 一 个 函数 库 ， 使 得 用 
户 能 够 在 MATLAB 环境 中 使 用 C 程序 或 FORTRAN 程序 ， 包 括 从 MATLAB 中 调用 子 程 
序 (动态 链接 ) ， 读 写 MAT 文件 的 功能 。 

综 上 所 述 ， 可 以 看 出 MATLAB 是 一 个 功能 十 分 强大 的 系统 ， 是 集 数值 计算 、 图 形 管 
理 、 程 序 开发 为 一 体 的 环境 。 除 此 之 外 ，MATLAB 还 具有 很 强 的 功能 扩展 能 力 ， 与 它 的 主 
系统 一 起 ， 可 以 配备 各 种 各 样 的 工具 箱 ， 以 完成 一 些 特定 的 任务 。 目 前 ，Math Works 公司 
推出 了 31 种 工具 箱 。 用 户 还 可 以 根据 自己 的 工作 任务 ， 开 发 自己 的 工具 箱 。 





























四 、MATLAB 的 工作 环境 


VJ MATLAB2013a 为 例 ， 启 动 MATLAB 软件 后 ， 可 以 看 到 MATLAB 的 主 界面 ， 如 
KI-1 所 示 。 窗 口 的 位 置 可 以 根据 用 户 的 习惯 可 以 自由 修改 布局 ， 鼠 标 左 键 拖 住 窗口 的 上 
边缘 ， 就 可 以 调节 窗口 大 小 及 位 置 。 如 需 恢 复 默 认 设置 ， 点 击 “home” 按 钮 ， 在 右 侧 可 以 
AA) “layout” Wj), ATHA, wÆ “default” (默认 布局 ) 。 
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命令 输入 窗口 是 用 户 与 MATLAB f REAR EITA iH] TERE, (um Emni OO” 
表示 MATLAB 解释 器 正 等 待 用 户 输入 命令 。 所 有 的 MATLAB MS., MATLAB 函数 及 
MATLAB 程序 都 要 在 这 个 窗口 下 运行 。 

在 命令 输入 窗口 中 ， 用 户 输入 计算 命令 ， 如 键入 以 下 的 命令 生成 一 个 3X3 阶 的 和 矩阵: 
SA= [1 2 3; 4 5 6; 7 8 9] 

方 括号 命令 表示 和 矩阵， 空格 将 每 个 元 素 分 开 ， 而 分 号 将 矩阵 的 各 行 数值 分 开 。 再 键入 Enter 
(HÆ) 后 ，MATLAB 将 会 显示 如 下 的 和 矩阵 : 














A= 
1 2 3 
4 5 6 
T 8 9 
为 了 求 该 矩阵 的 逆 和 矩阵 ， 只 要 键 和 人 命令 : 
>B=inv CA); 











则 可 得 到 和 矩阵 4 myui. ERTA EE B 之 中 。 如 果 不 想 在 命令 窗口 中 显示 计算 结果 ， 
只 要 如 上 所 示 ， 在 该 命令 后 多 键入 一 个 分 号 即 可 。 此 时 ，MATLAB 只 完成 该 命令 所 要 求 的 
计算 任务 ， 其 计算 结果 不 会 显示 。 这 项 功能 在 程序 设计 中 是 非常 有 用 的 。 由 于 和 矩 阵 A 不 满 
秩 ， 对 和 矩阵 求 逆 时 系统 会 发 出 警示 “Warning”， 如 图 -2 所 示 。 











Connand Vindow 
» jl 2 3 4556 1 8 9) 


? 
åa 1.. AOA.. 900720015 





Command History 
3t- 2016-5-13 11:04 


Ali 2 3 4556 7 8 9] 
cle 

eu 2 3 45 6 18 9] 
Brinv(A) 


矩阵 A 8958 A 5; fi Hd EUR tE BER E 


由 于 MATLAB 的 运算 功能 很 强 ， 所 以 ， 它 的 这 种 类 似 与 BASIC 语言 的 、 具 有 很 强 的 
对 话 功能 的 工作 环境 对 化 学 计量 学 程序 调试 和 编制 有 很 大 好 处 。 如 计算 最 小 二 乘 回 归 ， 输 入 
了 校正 矩阵 X 和 响应 矢量 Y 后 ， 在 MATLAB 的 工作 环境 下 ， 直 接 用 以 下 语句 就 可 得 到 需 
求解 的 参数 估计 矢量 C 来 : 
SC=inv (X'* X) *X'*Y 

上 上述 语句 中 ,表示 矩阵 的 转 置 ，* 表示 乘 号 。 为 解释 怎样 来 利用 MATLAB 进行 化 学 计 
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量 学 运算 ， 下 面 对 MATLAB 的 一 般 运 算 符 号 和 矩阵 运算 功能 给 出 一 般 性 介绍 。 
E., MATLAB 的 一 般 运算 符号 和 和 矩阵 运算 功能 


在 化 学 计量 学 的 研究 和 应 用 中 ， 由 于 大 都 是 进行 多 变量 运算 ， 矢 量 和 天 阵 是 基本 运算 单 
元 ， 熟 悉 MATLAB 的 矩阵 运算 功能 是 用 MATLAB 语言 来 进行 化 学 计量 学 研究 的 必要 
基础 。 

在 MATLAB 系统 中 ， 只 管理 着 一 种 对 象 (Object) 一 一 矩阵 AREE). 10€ 1 的 
和 矩阵 实际 上 是 一 个 标量 即 一 个 数量 ， 任 何 数值 在 MATLAB 系统 中 是 作为 1X1 的 矩阵 来 处 
理 的 。 与 数学 术语 一 样 ， 仅 有 一 行 1X7 或 一 列 nX1 的 矩阵 称 为 向 量 。MATLAB 的 大 部 分 
运算 或 命令 是 在 矩 阵 运算 的 意义 下 执行 的 。 

(一 ) MATLAB 的 基本 运算 符 

1. 矩阵 (算术 ) 运算 符 

MATLAB 的 主要 和 矩阵 (算术) 运算 符 如 下 所 列 : 

A': RIERA 的 转 置 ， 如 果 A 是 复 和 矩阵， 则 其 运算 的 结果 是 共 恩 转 置 ; 










































































A+B: RIEA 和 B 的 和 ， 表 示 两 个 矩阵 的 元 素 对 应 相 加 ， 如 果 A 和 B 都 是 标量 ， 
则 表示 两 个 数 相 加 ; 

A 一 B: 表示 矩阵 4 和 B 的 差 ， 表示 两 个 矩阵 的 元 素 对 应 相 减 ， 如 果 A MB 都 是 标量 ， 
则 表示 两 个 数 相 加 ; 

A x B: 表示 和 矩阵 A 和 B 的 乘法 ,4 与 B 均 可 以 是 向 量 或 数量 ， 只 要 符合 矩阵 乘法 的 
定义 ; 

A. * B ko JB IE A MB 的 对 应 元 素 相 乘 ，4 和 B 为 同 维 数 的 矩阵 ， 除 非 其 中 之 一 为 
数量 ，; 


A. /B: 表示 矩阵 4 的 元 素 除 以 矩阵 B 的 对 应 元 素 ， 即 等 于 [A (i,j)/B(i,j)j,，A BIB 
为 同 维 数 的 矩阵 ， 除 非 其 中 之 一 为 数量 ; 

A. VB. XB B 的 元 素 除 以 矩阵 4 的 对 应 元 素 ， 即 等 于 [BGi,j)/A(i,j)j,A 和 B 
为 同 维 数 的 矩阵 ， 除 非 其 中 之 一 为 数量 。 

2. 矩阵 的 创建 

可 以 使 用 下 列 任何 一 种 方法 在 MATLAB 环境 下 创建 或 输入 一 个 矩阵 : 

CD 显示 地 输入 一 个 元 素 序列 ; 

© H MATLAB 的 内 部 函数 创建 一 个 矩阵 ; 

© 在 M 文件 中 用 MATLAB 语句 创建 一 个 矩阵 ; 

D 从 一 个 外 部 数据 文件 中 装载 并 创建 一 个 矩阵 。 

在 MATLAB 环境 中 ， 不 需要 对 创建 的 变量 对 象 给 出 类 型 说 明和 维 数 说 明 ， 所 有 的 变量 
都 作为 双 精 度 的 矩阵 来 分 配 内 存 空间 和 存储 空间 。MATLAB 将 自动 地 为 每 一 个 变量 分 配 内 
存 。 最 简单 的 创建 短 阵 的 方法 是 显示 地 输入 矩阵 的 元 素 序 列 。 
>A= [1357;12353;3591] 
执行 该 语句 的 输出 结果 是 : 
A= 





















































12 3 5 3 
3 5 9 1 
注意 ， 行 与 行 之 间 都 是 用 分 号 来 隔 开 的 。 
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3. MATLAB 的 常用 数学 函数 

MATLAB 提供 了 几乎 所 有 的 常用 的 初等 图 数 ， 函 数 的 变量 在 MATLAB 中 被 规定 为 矩 
阵 变量 ， 运 算法 则 是 将 丽 数 逐 项 作用 于 和 矩阵 的 元 素 上 ， 因 而 运算 的 结果 是 一 个 与 自 变 量 同 维 
数 的 矩 了 泗 。 和 掌握 了 基本 的 运算 函数 可 以 大 大 提高 效率 。 
例如 : 


























SA= [123 245 365 , 345 345 232 ] 
B fix (00.45 * A) 
ZC-—cos (A) 





























这 三 条 语句 运算 的 结果 分 别 是 : 


A= 
123 245 365 
345 345 232 

B= 
55 110 164 
155 155 104 

C= 


—0. 8880 0.9990 0.8391 
0.8391 0.8391 0.8880 


MATLAB 提供 的 三 角 函 数 主要 包括 有 : 


sin 正弦 函数 
cos 余弦 函数 
tan 1E 9) K% 


asin AL IE 5% PR C 
acos 反 余弦 函数 
atan ALIE YJ pK% 
sinh XX H IE 5% PKI 2C 
cosh 双 曲 余弦 函数 
tanh XX tti 1E YJ P 2C 
asidh J XX HH IE 5% PRU 
acosh 反 双 曲 余弦 函数 
atanh 反 双 曲 正切 孔 数 











MATLAB 提供 的 初等 函数 包括 有 : 


abs 实数 的 绝对 值 、 复 数 的 模 、 字 符 串 的 ASCH 码 值 
angle 复数 的 幅 角 
sqrt Jr ^R eR RC 
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real 复数 的 实 部 

imag 复数 的 虚 部 

conj & 3t is T 

round 最 邻近 整数 截断 (四舍五入 ) 
fix 向 零 方向 截断 为 整数 
floor 不 大 于 自 变量 的 最 大 整数 
ceil 不 小 于 自 变量 的 最 小 整数 
sign 符号 函数 

rem 求 余数 或 模 运 算 

gcd 最 大 公 因 子 

lem 最 小 公 倍 数 

exp 自然 指数 函数 (以 。 为 底 ) 
log 自然 对 数 函 数 C e 为 底 ) 
log10 以 10 为 底 的 对 数 函 数 











为 了 方便 应 用 ，MATLAB 还 提供 了 一 些 特殊 的 数学 函数 ， 主 要 包括 有 : 





bessel Bessel 函数 

beta 完全 与 不 完全 Beta 函数 
rat 有 理 通 近 

erf 误差 函数 

erfinv DIR 25 PR C 


EIR RREA E AR AE TOBPERI TU ETT A 


4. JLA HT 7; fi P^ ^E 5B EM R 
直接 从 MATLAB 的 命令 窗 


量 的 方法 
口 输 入 矩阵 和 矢量 确实 方便 ， 但 是 ， 这 样 做 的 效率 不 高 。 在 





MATLAB 中 ， 有 几 个 可 方便 产生 矩阵 和 矢量 的 方法 ， 这 将 使 编程 效率 提高 ， 在 此 给 出 简要 介绍 。 


EX 
tH 


冒号 运算 符 使 得 数据 向 量 的 




















型 的 函数 数据 表 ， 只 需 





创建 变 得 十 分 容易 。 为 了 得 到 一 个 竖 











先 用 冒号 运算 符 生 成 行 向 量 ， 昨 
表 ; 例如 : 





了 转 置 ， 计 算出 函数 值 列 ， 就 可 用 两 列 数据 拼 成 一 个 函数 数据 








Ix [0.0; 0.2: 1.0]; 生成 从 0.0 到 1.0 间隔 0.2 的 向 量 ， 经 转 置 C) 变 为 列 向 量 


Sy=—exp (x) . *sin (x); 

> [xy] 

ans= 

0 0 

0.2000  —0. 2427 
0.4000  —0. 5809 
0.6000  —1. 0288 
0.8000 —1. 5965 
1.0000 一 2.2874 
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能 够 创建 向 量 的 其 他 函数 还 有 : logspace 函数 ， 用 于 创建 对 数 等 距 的 向 量 ; linspace PR 
数 ， 用 于 创建 指定 长 度 的 等 距 向 量 。 例 如 : 
linspace (rl. x2, m) 
就 可 产生 一 个 含 ”个 元 素 的 行 向 量 ， 它 的 第 一 个 元 素 是 x1， 最 后 一 个 元 素 是 x2， 元 素 
与 元 素 之 间 的 差 值 是 相等 的 。 如 键入 : 
Slinspace (0.3, 5.2, 14) 
即 可 得 : 


ans-- 


























Columns 1 through 8 

0.3000 0.6769 1.0538 1.4308 1.8077 2.1846 2.5615 2.9385 
Columns 9 through 14 

3.3154 3.6923 4.0692 4.4462 4.8231 5.2000 














如 果 将 linspace (x1, x2, n) 中 的 n WEZ. 40 linspace (x1, x2), MATLAB 就 默认 
产生 一 个 含 100 个 元 素 的 行 变 量 。 
MATLAB 还 提供 了 一 类 函数 ， 可 用 于 创建 某 些 特殊 类 型 矩阵 ， 这 些 函 数 主要 包括 有 : 


























diag 向 量 的 对 角 和 矩阵 

hadamard Hadamard 矩阵 

magic ZIJT AB Eg 

pascal 杨辉 三 角形 和 矩阵 

Zeros 元 素 全 为 零 的 矩阵 

ones 元 素 全 为 1 的 矩阵 

rand JUR 2g 35) 5] 4) fi W DLE E 
randn JU AR OM AE 4 2) fi E] DLE E 
eye 单位 矩阵 

linespace 线性 等 距 问 量 

logspace XT C B qn] st 





fun. Ar p—-4-3»x5mJBSHLXBIE. Hint A P FUR: 
Srand (3, 5) 
即 可 得 : 


ans-- 





0.8147 . 0.9134 0.2785 0.9649 0.9572 
0.9058 . 0.6324 . 0.5469 0.1576 0.4854 
0.1270 | 0.0975 0.9575 0.9706 . 0.8003 

这 为 进行 计算 机 数字 模拟 带 来 很 大 方便 。 

5. MATLAB 的 矩阵 角 标 系统 
为 标记 矩阵 的 每 个 元 素 的 位 置 ， 数 学 上 用 该 元 素 在 矩阵 中 的 行 、 列 标号 来 表示 。MAT- 

LAB 也 使 用 类 似 的 方法 来 表示 ， 这 与 一 般 计 算 机 高 级 语言 没什么 差别 。 不同 的 是 ， 

MATLAB 约定 矩阵 的 角 标 可 以 是 一 个 癌 量 。 对 和 矩 阵 来 说 ,可 以 利用 向 量 角 标 访 问 矩 阵 的 子 

和 矩阵 就 十 分 方便 了 。MATLAB 的 矩阵 角 标 系统 在 化 学 计量 学 的 应 用 中 起 到 广泛 的 作用 。 
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例如 ， 设 4 是 一 个 10X10 的 矩阵， 那么 语句 
DA (l; 5y 3) 
表示 创建 一 个 5X1 WIE, HEE A 的 第 三 列 前 5 个 元 素 组 成 ， 又 如 语句 
>A (d: 5, 7: 10) 
表示 创建 一 个 新 的 5X4 MERE, BIERE A 的 前 五 行 后 四 列 的 元 素 组 成 ， 即 为 A 的 一 个 子 
块 。 在 这 种 表示 方法 中 ， 单 用 冒号 作 角 标 时 ， 表 示 该 矩阵 的 全 部 行 或 全 部 列 。 例 如 ， 语 句 
>A (:，3) 
表示 矩阵 A 的 第 三 列 ， 而 
>A (1: 5,:) 
表示 矩阵 4 的 前 五 行 。 
和 矩阵 的 角 标 表示 可 以 用 在 赋值 语句 中 ， 这 是 MATLAB 中 和 抢 阵 运算 的 一 种 技巧 。 例 如 ， 
键入 
B=magic (8) 




















B= 
64 2 3 61 60 6 7 57 
9 55 54 12 13 51 50 16 
17 47 46 20 21 43 42 24 
40 26 27 37 36 30 31 33 
32 34 35 29 28 38 39 25 
41 23 22 44 45 19 18 48 
49 15 14 52 53 11 10 56 
8 58 59 5 4 62 63 1 
再 键入 


a=rand (8) 


a= 


0.0344 0.6463 0.4984 0.6991 0.2543 0.4733 0.7537 0.1299 
0.4387 | 0.7094 0.9597 0.8909 0.8143 0.3517 0.3804 0.5688 
0.3816 0.7547 0.3404 0.9593 0.2435 0.8308 0.5678 0.4694 
0.7655 0.2760 0.5853 0.5472 0.9293 0.5853 0.0759 0.0119 
0.7952 | 0.6797 | 0.2238 0.1386 0.3500 0.5497 0.0540 0.3371 
0.1869 0.6551 0.7513 0.1493 0.1966 0.9172 0.5308 0.1622 
0.4898 0.1626 0.2551 0.2575 0.2511 0.2858 0.7792 0.7943 
0.4456 | 0.1190 0.5060 0.8407 0.6160 0.7572 0.9340 0.3112 

再 键入 

Sa Cs, L357] ) =B Ge 1: 3) 

则 可 得 

{= 
0.0344 0.6463 64.0000 0.6991 2.0000 0. 4733 3.0000 0.1299 
0.4387 0.7094 9.0000 0.8909 55.0000 0.3517 54.0000 0.5688 
0.3816 | 0.7547 17.0000 0.9593 47.0000 0.8308 46.0000 0.4694 
0.7655 | 0.2760 | 40.0000 0.5472 26.0000 0.5853 27.0000 0.0119 
0.7952 0.6797 | 32.0000 0.1386 34.0000 0.5497 35.0000 0.3371 
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0.1869 0.6551 41.0000 0.1493 23.0000 0.9172 22.0000 0.1622 
0.4898 | 0.1626 | 49.0000 0.2575 15.0000 0.2858 14.0000 0.7943 
0.4456 | 0.1190 8.0000 0.8407 58.0000 0.7572 59.0000 0.3112 


从 上 述 过 程 可 以 看 出 ， 和 矩阵 a 的 第 3 列 、 第 5 列 和 第 7 列 分 别 被 矩阵 B 的 前 三 列 代替 了 。 

一 般 地 ， 如 果 v 和 w 都 是 整数 元 素 向 量 ,， 那么 A (v. w) 表示 的 是 一 个 取 自 A 的 矩阵 
子 块 ， 其 行 由 向 量 v 确定， 而 列 由 向 量 w 确定 ， 称 v 为 行 角 标 ，w 为 列 角 标 。 

男 外 , 在 MATLAB 中 ， 用 以 下 方法 可 得 到 抢 阵 a 的 列 反 序 的 和 矩阵， 如 键入 : 
Da (G, 8: 一 1: D 

















即 可 得 : 

ans— 
0. 1299 3.0000 | 0.4733 2.0000 | 0.6991 64.0000 | 0.6463 0.0344 
0.5688 | 54.0000 0.3517 . 55.0000 0.8909 9.0000 0.7094 . 0.4387 
0.4694 . 46.0000 0.8308 47.0000 0.9593 17.0000  Á 0.7547 | 0.3816 
0.0119 | 27.0000 0.5853 26.0000  Á 0.5472 40.0000  Á 0.2760 | 0.7655 
0.3371 | 35.0000  Á 0.5497 | 34.0000  Á 0.1386 32.0000  Á 0.6797 | 0.7952 
0.1622 . 22.0000 0.9172 . 23.0000 0.1493 41.0000 0.6551 0.1869 
0.7943 | 14.0000 0.2858 15.0000  Á 0.2575 | 49.0000  Á 0.1626 | 0.4898 
0.3112 59.0000 0.7572 | 58.0000 0.8407 8.0000 0.1190 0.4456 


iE, MATLAB 用 来 进行 矩阵 的 分 块 、 重 排 等 很 难 在 一 般 计算 机 高 级 语言 实现 的 功能 
变 得 十 分 容易 了 。 

在 化 学 计量 学 中 ， 经 常 需要 将 矩阵 进行 矢 
实现 的 ， 例 如 ， 语 名 

















化 而 后 计算 ， 这 在 MATLAB 中 也 是 很 容易 


pain 





SA= [12;34;56] 


Sb=A (:) 
的 输出 结果 是 
A= 
1 2 
3 4 
6 
b= 


cO» eA N) Ci! Co 王 
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值得 提出 的 是 ，A CO 语句 如 在 赋值 语句 的 左 端 ， 还 可 表示 用 一 个 向 量 对 和 矩阵 A 来 进 
行 顺序 赋值 ， 只 是 此 时 和 矩阵 A 必须 事先 存在 。 例 如 ， 设 4 是 上 述 的 3X2 阶 的 和 矩阵， 那么 
语句 

















则 表示 行 向 量 [11. 12. 13. 14. 15. 16] 的 6 个 元 素 依照 矩阵 4 的 列 顺序 给 A 的 元 素 赋 
值 ， 但 保持 矩阵 4 的 维 数 3X2， 因 此 ， 


A= 
I 14 
12 15 
13 16 


MTALAB 的 函数 reshape 1EZé fii H SCRI 77 1s K ticae — 4B BS ER. — Roe UG. AB 
阵 的 角 标 出 现在 语句 等 号 的 右 端 时 ， 表 示 创 建 一 个 新 的 和 矩阵 对 象 ; Emt MRR X AR 
阵 中 的 部 分 或 全 部 元 素 重 新 赋值 。 

fr MATLAB 中 ， 还 可 用 所 谓 的 矩阵 的 0-1 角 标 来 定义 矩阵 子 块 ， 这 样 就 可 以 用 关系 运 
算 的 结果 来 引用 矩阵 的 元 素 或 子 块 ， 这 在 一 些 数学 计算 中 是 十 分 有 意义 的 。 假 设 a= rand 
(8) 是 一 个 8X8 MEHLER., L 是 一 个 长 度 为 m 的 0-1 向 量 , 那么 A (GL. D 表示 由 向 
E L 的 非 零 元 素 对 应 的 矩阵 4 的 行 组 成 的 子 块 。 如 ， 


























a=rand (8) 


得 


0.5285 0.0838 0.4427 0.3998 0.1361 0.5132 0.0497 0.1112 
0.1656 0.2290 0.1067 0.2599 0.8693 0.4018 0.9027 0.7803 
0.6020 0.9133 0.9619 0.8001 0.5797 0.0760 0.9448 0.3897 
0.2630 0.1524 0.0046 0.4314 0.5499 0.2399 0.4909 0.2417 
0.6541 0.8258 0.7749 0.9106 0.1450 0.1233 0.4893 0.4039 
0.6892 0.5383 0.8173 0.1818 0.8530 0.1839 0.3377 0.0965 
0.7482 0.9961 0.8687 0.2638 0.6221 0.2400 0.9001 0.1320 
0.4505 0.0782 0.0844 0.1455 0.3510 0.4173 0.3692 0.9421 

则 如 键入 





ZL-a (6.3) >=0.5 


即 可 得 


CO. qe» ph Gg Eus Jg cx c» 





再 键入 


b=a (L,:) 


可 得 到 a 和 矩阵 的 一 个 子 块 





0. 6020 
0. 6541 
0. 6892 
0.7482 


0. 9133 
0. 8258 
0. 5383 
0. 9961 


0. 9619 
0. 7749 
0. 8173 
0. 8687 





下 面 的 语句 则 可 以 月 


c=b (b<= 


可 得 


.1818 
. 2638 
. 1450 
. 0760 
. 1233 
. 1839 
. 2400 
. 0965 
. 1320 


Co O CO O € C» cC» C» C3 


E, MATLAB 可 以 日 





0. 3) 


阵 ， 那 么 ， 语 句 





0. 8001 
0. 9106 
0. 1818 
0. 2638 


0. 5797 
0. 1450 
0. 8530 
0. 6221 


0. 0760 
0. 1233 
0. 1839 
0. 2400 


0. 9448 
0. 4893 
0. 3377 
0. 9001 


附 ox 


0. 3897 
0. 4039 
0. 0965 
0. 1320 


EREDE b 中 大 于 0. 3 的 元 素 ， 而 且 还 可 将 其 矢量 化 : 
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日 小 矩阵 作为 矩阵 子 块 来 构造 大 矩阵 。 例 如， 如 果 4 是 阶 方 
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> C= [A A'; ones (size CA) ) A. ^2]; 





























表示 创建 一 个 2n 阶 的 方 阵 。 在 这 样 的 运算 中 ， 要 保持 矩阵 阶 数 的 协调 性 ， 否 则 MAT- 
LAB m in 5 运算 出 错 
x= magic (4) 
得 
x-— 
16 2 3 13 
5 11 10 8 
9 7 6 12 
4 14 15 1 
再 键入 
Sy= [xx'; ones (size GO ) x. 5] 
则 可 得 
y 一 
16. 0000 2. 0000 3.0000 13.0000 16.0000 5. 0000 9. 0000 4. 0000 
5.0000 11.0000 10.0000 8. 0000 2.0000 11. 0000 7.0000 14.0000 
9. 0000 7. 0000 6.0000 12.0000 3.0000 10.0000 6.0000 15.0000 
4.0000 14.0000 15.0000 1.0000 13.0000 8.0000 12.0000 1. 0000 
1. 0000 1. 0000 1. 0000 1. 0000 4. 0000 1. 4142 1. 7321 3. 6056 
1. 0000 1. 0000 1. 0000 1. 0000 2. 2361 3. 3166 3. 1623 2. 8284 
1. 0000 1. 0000 1. 0000 1. 0000 3. 0000 2. 6458 2. 4495 3. 4641 
1. 0000 1. 0000 1. 0000 1. 0000 2. 0000 3. 7417 3. 8730 1. 0000 
Ayr Sm T B EAE EE, ARTIE PER SETTE EE. MATLAB 提供 了 一 
些 功能 函数 ， 主 要 包括 有 
rot90 将 矩阵 旋转 90° 
fliplr 将 矩阵 的 列 反 序 〈 左 右 反 序 ) 
flipud HEETE E FEF) 
diag FE UE PE HI XF fA 26 R JE IR AXT fA XB BE Bk — A I8] E e AXT fA XB E 
tril 提取 和 矩阵 的 下 三 角 部 分 
triu 提取 和 矩阵 的 上 三 角 部 分 


reshape 改变 矩阵 阶 数 
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例如 ， 当 要 将 一 个 3X4 WAE REE E A B LE E HEIN, 2X6 的 矩阵 时 ， 可 以 用 下 列 的 语句 
来 实现 : 








SA= [14710;25811;36912] 


A= 
1 4 7 10 
2 5 8 11 
3 6 9 12 
MEA: 





B=reshape (A, 2, 6) 


1 3 5 7 9 11 
2 4 6 8 10 12 


Xd. A RS P -—fRARPERI DELE P FH 5)fS a 





tril(A) 


4H 
F 


ans = 


3 6 0 
又 如 
Sflipud(A) 


ans-- 
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与 矩阵 运算 相关 的 另外 两 个 MATLAB 函数 是 size 和 length, KÆ size CA) 的 返回 值 
是 一 个 二 元 素 的 向 量 ， 第 一 元 素 为 矩阵 4 的 行 数 ， 第 二 元 素 为 矩阵 4 的 列 数 。 在 MATLAB 
"P. size 的 定义 已 经 扩展 到 任何 多 维 数组 ， 它 的 返回 值 是 一 个 维 数 向 量 。 如 果 已 经 知道 " 是 
一 个 向 量 ， 那 么 length (v) 的 返回 值 是 该 向 量 的 长 度 , 或 max (size (v) )。 

更 重要 的 是 ，MATLAB 还 定义 了 一 个 很 特殊 的 矩阵 ， 即 空 矩 了 泗 。 空 矩阵 可 以 由 下 列 的 
语句 创建 : 














>x= [ ] 


即将 一 个 0X0 阶 的 矩阵 赋 给 变量 zx， 随后 即 可 以 应 用 这 个 空 矩 阵 变量 ， 而 不 会 导致 错误 。 
利用 空 矩 阵 的 特性 ， 可 以 方便 地 进行 从 一 个 矩阵 中 消去 部 分 行 和 部 分 列 的 和 运算。 例如， 语句 





SA Cr [2; WI] 9D 


可 得 

A= 
1 7 
2 8 
3 9 











的 运算 结果 是 从 矩阵 A 中 消去 第 2 列 和 第 4 FUBUABIE T DR. 在 MATLAB 中 ， 某 些 
MATLAB rZ Hz XB PETER SEE. SERRE T REE E. AXE KA h det CE REIT AI R A 
值 ) cond 〈 和 矩阵 的 条 件数 ) prod 〈 各 列 元 素 之 积 ) 和 sum (各 列 元 素 之 和 )。 例 如 ， 如 果 
x 是 一 个 空 矩阵 ， 则 分 别 规 定 tCx)—1. prodCz ) 二 1 和 sum(x ) 一 0 等。 注意 ， 空 矩阵 在 化 学 








计量 学 的 MATLAB 编程 中 将 具有 十 分 重要 的 作用 。 





p 











(二 ) 矩阵 与 数组 ; 











Ae ER 























为 了 方便 数据 分 析 ，MATLAB 提供 了 一 部 分 面向 和 矩阵 的 列 运算 的 数据 分 析 函 数 ， 这 些 
函数 主要 包括 : 

max 矩阵 各 列 的 最 大 值 向 量 
min 和 矩阵 各 列 的 最 小 值 向 量 
mean 矩阵 各 列 的 平均 值 向 量 
median 和 矩阵 各 列 的 中 值 向 量 

std 和 矩阵 各 列 的 标准 偏差 向 量 
Sum KE PEM JI) HI TOR Z A e E 
prod 矩阵 各 列 的 元 素 之 积 向 量 
cumsum 矩阵 各 列 的 累加 和 癌 量 
cumprod 矩阵 各 列 的 累积 癌 量 
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diff 矩阵 各 列 的 差分 向 量 
hist 矩阵 各 列 的 直方 图 向 量 
cov 列 向 量 卷 积 

sort 排序 


corrcoef 和 矩阵 各 列 相关 系数 
对 于 向 量变 量 ， 这 些 函 数 会 把 行 向 量 和 列 向 量 都 作为 数组 来 处 理 。 而 对 于 矩阵 变量 ， 
函数 则 面向 矩阵 的 列 进行 运算 ， 其 结果 是 行 向 量 。 例 如 ， 函 数 max 应 用 于 和 矩阵 变量 时 ， 
EE MU TM 用 户 可 以 自己 编写 面向 列 运 算 的 函数 
M 文件 ， 只 需 加 入 一 些 辅助 的 条 件 语 句 判 别 出 输 入 变量 是 向 量 还 是 矩阵 。 
注意 ， 在 MATLAB 中 ， 以 上 这 些 函 数 ( 除 最 后 一 个 函数 外 ) 都 可 以 应 用 于 多 维 数 组 。 
例如 ， 函 数 sum 的 一 般 调用 命令 为 









































Ssum (M, d) 











其 中 ，M 是 一 个 n HERB. d 可 以 是 任何 表达 式 ， 其 值 介 于 1 与 之 间 。 它 的 作用 是 在 
维 数组 M 的 第 a 维 方向 计算 M 的 元 素 之 和 ， 其 结果 应 该 是 一 个 n 一 1 维 数组 。 例 如 : 

















SM=zeros (3, 3. 4); 


>for k=1: 4 
M (:,:. k) =k * ones (3, 3); 
end 
Ssum (M, 1) 
ans 〈:，:，1) = 
3 3 3 
ans (:，:，2) = 
6 6 6 
ans (Ci.:. 3) = 
9 9 9 
ans C:.:. 4) = 


12 12 12 


ans-- 


sum (M, 2) 


ans (:,:, 1D 


3 
3 
3 


ans (:，:，2) = 
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6 
6 
6 
ans (:，:，3) = 
9 
9 
9 
ans Cis, 4) = 
12 
12 
12 


sum (M, 3) 


ans-- 


10 10 10 
10 10 10 
10 10 10 

















MATLAB 通过 其 矩阵 运算 ， 提 供 了 强 有 力 的 数学 运算 功能 ， 这 正 是 MATLAB 的 在 化 
学 计量 学 研究 中 最 有 用 之 处 ， 一 些 常 用 而 又 十 分 重要 的 和 矩阵 运算 算法 被 直接 设计 成 
MATLAB 的 核心 程序 ， 而 且 运算 速度 很 快 ， 从 而 使 得 化 学 计量 学 的 算法 研究 用 MATLAB 
来 编程 变 得 十 分 简单 。 

和 矩阵 分 解 是 化 学 计量 学 研究 的 核心 ， 很 多 算法 大 都 基于 和 矩阵 分 解 ， 只 要 熟练 掌握 了 矩阵 
分 解 的 基本 思路 和 基本 算法 ,将 为 化 学 计量 学 的 进一步 研究 打下 良好 的 基础 。 

1. 三 角 分 解 

和 矩阵 的 三 角 分 解 是 最 基本 的 一 种 和 矩阵 分 解 方法 ， 它 将 一 个 矩阵 分 解 成 上 三 角 和 矩 阵 与 下 三 
角 和 矩阵 的 乘积 ， 称 为 LU 分 解 或 LR 分 解 。 实 现 LU 分 解 的 算法 大 都 采用 Gauss 消去 法 ,在 
MATLAB 中 ， 实 现 1U 分 解 的 函数 是 lu， 它 的 返回 值 是 分 解 后 的 矩阵 因子 ， 调 用 命令 为 






























































[L, Uj=lu(A) 











其 中 , U 是 上 三 角 和 矩阵 ， 而 工 可 以 重新 排列 成 一 个 下 三 角 和 矩 了 泗 ， 使 其 主 对 角 元 素 全 为 
这 些 矩 阵 因 子 可 以 用 来 计算 矩阵 的 逆 和 矩阵 行列 式 的 值 。LU 分 解 也 是 求解 线性 方程 组 
的 基本 算法 ， 男 外， 和 矩阵 的 除法 以 LU 分 解 算法 为 基础 。 例 如 ， 设 有 和 矩阵 











SA= [452;721;819] 


得 
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A= 
4 5 2 
7 2 
8 1 g 











对 其 进行 LU 分 解 ， 直 接 调 用 lu 函数 即 可 














> [L, U] =lu(CA) 














TE 
L= 
0.5000 1.0000 0 
0.8750 0.2500 31.0000 
1. 0000 0 0 
U= 
8.0000 1.0000 9. 0000 
0 4.5000 一 2.5000 
0 0  —6.2500 
为 了 检验 分 解 的 正确 性 ， 计 算 两 个 矩阵 因子 之 积 的 语句 如 下 : 
DL*U 
计算 结果 为 


ans 一 


4 5 2 
7 2 
8 ji 9 


而 矩阵 A KOREJE MEA 


Sx=inv(A) 


在 MATLAB "F, p inv 的 算法 之 一 是 基于 LU 分 解 ， 也 即 inv(A) = inv(U) x inv(L) 。 
矩阵 A 的 行列 式 为 


Sd= det(A) 


得 
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一 225 


也 可 以 由 LU 分 解 的 矩阵 因子 的 行列 式 得 到 : 


Zd-—det(L) * det(U) 


得 


— 225 


设 有 列 向 量 b 二 [| 1 3 5]， 为 了 求解 方程 Ax 一 b， 利 用 MATLAB BJABEEERTE. 135] 





Sx=A/b 


得 


0. 8286 


0. 5143 
1. 6000 





这 个 解 也 可 以 由 LU 分 解 得 到 


Sy=L/b; x=U/y; 


还 有 一 个 与 LU 分 解 相 关 的 MATLAB KZ, BI chol, PK chol 用 于 获得 对 称 正定 矩阵 的 








Cholesky 分 解 。 

2. QR 分 解 

QR 分 解 可 将 一 个 方 阵 或 长 方 矩 阵 表 示 成 一 个 正 交 和 矩阵 和 一 个 上 三 角 和 抢 阵 的 乘积 。 例 
如 ， 设 


>A= [453;169;782;9412] 


得 
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9 4 12 





对 其 进行 QR 分 解 就 可 直接 使 用 qr 命令 
> [Q. R] =qr(A) 
其 结果 如 下 : 


Q= 
—0. 3299 —0.2630 一 0.1666 —0. 8912 
—0. 0825 —0. 7640 0. 6246 0. 1393 
—0. 5774 —0.3500 —0. 6000 0. 4291 
— 0. 7423 0. 4740 0. 4713 0. 0468 


R= 
—12. 1244 —9.7325 —11. 7944 
0 —6.8029 | —2.6769 
0 0 9. 5773 
0 0 0 


其 中 和 矩阵 Q EEK., MEER 是 上 三 角形 的 ， 主 对 角 线 下 的 元 素 为 零 。 通 过 下 式 可 以 验 
证 矩阵 Q 的 正 交 人 性 


DQ*Q' 

得 

ans 一 
1.0000 —0. 0000 0 —0.0000 
—0. 0000 1.0000 —0. 0000 . 0000 


0  —0.0000 1. 0000 . 0000 

— 0. 0000 0. 0000 0. 0000 1. 0000 

QR 分 解 还 能 为 MATLAB KA null 和 orth ERRA., HAE EmA, AMAA P 
数 分 别 给 出 矩阵 变换 的 零 空 间 和 值 域 空 向 的 正 交 基底 。 

3. 奇异 值 分 解 

奇异 值 分 解 在 化 学 计量 学 中 拥有 十 分 重要 的 地 位 ， 化 学 计量 学 的 很 多 核心 方法 都 是 基于 
奇异 值 分 解 ， 如 主 成 分 分 析 、 主 成 分 回归 、 偏 最 小 二 乘 及 大 部 分 多 元 校正 和 多 元 分 辩 的 方法 
都 是 基于 奇异 值 分 解 ， 它 是 矩阵 分 析 的 一 种 有 效 的 工具 。 有 兴趣 的 读者 可 以 参考 Golub 和 
Van Loan 的 著作 《和 矩阵 计算 》 以 获得 更 多 信息 。 在 MATLAB 中 ,下 面 的 语句 

[U. S, V] —svdCA) 

计算 和 矩阵 奇异 值 分 解 中 的 三 个 因子 矩阵 ， 它 们 满足 条 件 

A—-U*Sx*V' 

HB. ABERU IEEE, VITEZE., mM S EAEE, EE U V 在 化 学 
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计量 学 中 还 分 别 被 称 为 得 分 和 矩阵 和 载荷 矩阵 ， 它 们 分 别 张 成 矩阵 4 的 列 正 交 空 间 和 行 正 交 
空间 。 在 函数 svd 的 调用 式 中 ， 如 果 只 有 一 个 输出 变量 ， 则 该 函数 返回 的 仅 是 矩阵 4 的 奇异 值 。 
使 用 和 矩阵 奇异 值 分 解 算法 的 MATLAB 函数 主要 有 : 矩阵 的 广义 道 pinv CAO, JB ERST 
rank(A)、 和 矩阵 的 Euclide 范 数 norm(A，2) 和 和 矩 阵 的 条 件数 cond(A) 。 
4. 特征 值 分 解 
设 4 是 一 个 n Xn WEE., WEEN fg Ax —ax 的 a TR2JABIE A 的 特征 值 。 特 征 值 可 
以 由 下 列 命令 求 得 
Seig (A) 
它 的 返回 值 是 矩阵 4 的 特征 值 。 如 果 和 矩阵 4 是 一 个 实 对 称 和 矩阵 ， 那 么 所 有 的 特征 值 都 
是 实数 。 而 下 列 形式 的 调用 则 可 以 同时 得 到 特征 值 和 特征 向 量 : 
> [x, D] —eig(A) 
HB. HERE D 是 由 特征 值 组 成 的 对 角 和 矩阵 ， 和 矩阵 x 的 列 由 对 应 的 特征 向 量 组 成 ， 使 得 方程 
A *x—x * D 成 立 。 
例如 : 



























































D[x. dj=eig(A’' * A) 
x= 
0. 7460 0. 4074 0.5268 
—0. 6600 0.5579 0.5031 
—0. 0889  —0.7230 0.6851 


d= 
25. 5509 0 0 
0 54.8013 0 
0 0 445.6478 








^ A 和 B 都 是 方 阵 ， 那 么 eig CA. B WREE Ax =k Bx 成 立 的 广义 特征 
值 组 成 的 向 量 。 为 了 同时 得 到 相应 的 特征 向 量 ， 可 以 用 下 列 的 命令 形式 : 
> [x. D] —eigCA. B) 
其 中 , D ERRIRE, TAERE x 的 列 是 由 对 应 的 特征 向 量 组 成 的 ， 满 足 方程 
DA*x—B*x*D 


























小 技巧 : 

(1) 如 需 存 储 不 同类 型 的 数据 或 不 同 维 数 的 矩阵 ， 可 以 采用 元 胞 数组 (cell array). 来 实 
abe qeu eod M pate cete dei Mae 

(2) IS SCA (struct array) 同 元 胞 数组 一 样 ， 也 可 以 存放 不 同类 型 的 数据 ， 但 结构 数 
据 的 内 容 更 加 丰富 ， 应 用 能 够 更 加 广泛 。 

(3) 如 对 某 个 函数 不 太 熟 悉 如 何 调用 时 ， 可 以 通过 语 自 查找 相关 函数 的 说 明 或 帮助 文 
档 ， 例 如 查找 mean 函数 的 说 明 : 
Z^help mean 
或 
Z^doc mean 

(4) AE TE 85 350] SEE EC. find 函数 EREE PLK), size 函数 (返回 矩阵 的 行列 
JO. max 函数 CRK) 以 及 min 函数 〈 最 小 值 ) 等 等 。 
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(5) 学 会 使 用 判断 函数 来 判断 某 一 变量 或 某 一 对 象 是 否 满足 某 些 条 件 ， 然 后 根据 这 些 条 
件 分 别 对 变量 或 对 象 进 行 相应 的 操作 ， 如 isempty 函数 ，iscell 函数 ，ischar 函数 ，islogical 


函数 ，isreal 函数 ，isnan 函数 以 及 isnumeric 函数 等 等 。 
六 、MATLAB 的 绘图 功能 


简单 的 条 形 图 


>A= [23586789610]; 


plotC A) 


即 可 得 图 [[ -3。 





























1! 2 3 4 5 6 7 3 
本 加 ”简单 的 条 形 图 


分 别 以 条 形 图 、 填 充 图 、 散 点 图 、 阶 梯 图 、 柱 状 图 和 分 布 





Sx=0.0.4.8; 

y=4 * exp(—0.2xx); 

subplot(3.2.1) ;stairs( x. y. 'r'); 

titleC'stairs( x.y."e") '2;axis([ —0. 5.8. 5,0.4 D; 
subplot(3.2,2) ;stem(x.y. 'k'); 
titleC'stem(x. y. "k") '0;axis([ —0. 5,8. 5.0.4; 
subplot(3.,2,3) ;scatter(x. y. '. b'); 

title( 'scatter(x.y. "b") ');axis([ —0. 5.8. 5.0.4 D; 
subplot(3.2.4) ;fill(x,y, 'r'); 

titleC'fill(x.y. "r")');axis([ —0.5,8.5,0,4]); 
subplot(3,2,5);bar(x,y, 'g'); 

title( 'bar(x,y,"g")');axis([—0. 5,8.5,0,4]); 
x=randn(1000,1); 

subplot(3,2,6);hist(x); 








图 绘制 曲线 y 一 4e ^? ， 如 : 
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titleC'boxplotGO ') ;axis([ 一 5,5,0,250]); 


即 可 得 图 工 -4。 


Stairs(X,y,e) stem(x,y, Kk") 
4 4r9 
Q9 
- J 
3 i3 1 3 9 
| eee | ; 


0 2 4 6 8 0 






















































































2 4 6 
scatter(x, y, b^) fill(x,y, r^) 
4r e 4 
e 
e 
3 J^ 3 
e 
e 
*. 
2 * s 2 
*. 
e 
e 
1 so. ° 1 
ee 
$ 0 2 4 6 8 9 0 2 4 6 8 
bar(x.y,'g^ boxplot(x) 


























0 2 4 6 8 
几 种 不 同形 式 的 二 维 图 形 


若 画 三 维 图 形 ， 如 


21t—0:pi/20:2 * pi; 

x—4 * cos(t); 

y=2 * sqrt(2) * sinCO ; 

z=— 2 * sqrt(2) * sin (t); 

plot3Cx.y.z. 'ro'); 

xlabelC 'X 2 ; ylabelC ' Y '2 ;zlabelC'Z '2;grid; 


即 可 得 图 工 -5。 
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形 


准 三 维 曲 面 图 


绘制 标 


St=0;pi/50:2 * pi; 


[x.ysz]—cylinder(24-sinCt) 50) ; 


subplot(1.2.1); 
surf(x.y.2); 


subplot(1 12322) ; 


[x.ysz]— sphere; 


surf(x.y.2z); 


即 可 得 图 工 -6。 

















三 维 曲面 图 形 


图 工 -6 
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绘图 小 技巧 : 

(1) 如 需 更 改线 条 形状 及 颜色 ， 可 以 在 图 [-7 窗口 界面 中 点 击 “Edit”， 在 下 拉 菜 单 中 
点 击 “Figure properties…”， 就 会 弹出 图 形 必 性， 如 图 工 -8 所 示 ， 根 据 喜 好 选择 形状 与 颜 
色 。 图 形 属 性 里 还 有 很 多 功能 ， 壁 如 添加 标题 ， 更 改 坐 标 轴 标尺 ， 等 等 。 

(2) 如 需 在 图 片 中 添加 文字 标注 ， 可 以 点 击 “Insert”， 在 下 拉 菜 单 中 选择 “Text 
Arrow" X "Text Box”。“JInsert” 菜 单 里 有 很 多 插入 功能 ， 如 箭头 、 颜 色 条 及 图 例 等 等 。 





E) 图 形 属性 
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(3) 在 同一 坐标 轴 中 绘制 多 个 图 形 ， 记 得 加 上 语句 “hold on”， 表 示 在 原来 的 图 形 上 继 
续 画图 。 

(4) 图 片 的 导出 : 可 以 直接 点 击 “Edit” 中 的 下 拉 菜 单 中 “Copy Figure” 直 接 复 制 到 
文档 里 ， 复 制 出 来 的 图 片 是 矢量 图 ， 能 够 保留 原始 图 片 的 质量 。 也 可 以 调用 print 函数 导出 
图 片 ， 有 很 多 图 片 的 格式 可 以 选择 。 

(5) 如 需 在 图 形 界面 上 显示 数学 符号 、 文 本 信息 、 和 希腊 字母 等 特殊 符号 ， 可 以 调用 text 
函数 来 实现 。 


七 、ATLD 算法 的 MATLAB 程序 


function [A,B,C,LFT,M]-ATLD(XIJK,N,epsilon) 

% 

% XIJK is one three-way data array with the size of I*J*K 
% epsilon is tolerance. 

% I is the number of rows 

% J is the number of columns 

% K is the number of channels 

% N is the number of components 

% LFT is the loss function 

96 A(I,N),B(J;N),C(K,N) 

% State Key Laboratory of Chemo/Biosensing and Chemometrics, 
% College of Chemistry and Chemical Engineering, 

% Hunan University, Changsha 410082, China. 

% & Hai-Long Wu (hlwu(ghnu.edu.cn) 


% decompose the cube X along I,J.K direction respectively 
if nargin « 3 

epsilon-10*eps*norm(XK, 1)*max(size(XK)); 

end 

[1,J, K]2size( XIJK); 

XK-reshape(XIJK.I.J*K); 

XJKI-shiftdim(XIJK,1); % cut cube X along I direction 
XKlIJ-shiftdim(XJKI, 1); % cut cube X along J direction 


% initialize A & B and compute C 

9o [A,B,C]-ATLD(XIJK,N); 

A-randn(LN); 

B-randn(J,N); 

?6[A,B,C]- ATLD(XIJK,N); 
PA-pinv(A,epsilon); 
PB-pinv(B,epsilon); 
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for k=1:K 
C(k,:)-diag(PA* XIJK (:,:, k)*PB")'; 
end 


TOL-10; 


while TOL > epsilon && M < 500 
% compute A according B and C 
PC-pinv(C,epsilon); 


for i-1:I 
A(1,:)2diag(PB* XJKI(:,:,1) * PC"); 
end 


% normalizeA columnwisely 
A-A*diag(1./diag(sqrt(A"*A))); 
% compute B according A and C 
PA-pinv(A.epsilon); 


for j21:J 
B(j,:)2«diag(PC*XKIJ(:,:,) *PA''; 
end 


% normalize B columnwisely 
B-B*diag(1./diag(sqrt(B'*B))); 
% compute C according A and B 
PA-pinv(A.,epsilon); 
PB-pinv(B,epsilon); 


for k-1:K 
C(k,:)-diag(PA* XIJK(:,:, Kk) *PB')'; 
end 


% calculate loss function LFT 
LFTT-0; 
for k=1:K 
XXX(:.:;k)-A*diag(C(k,:))*B'; 
LFTT-LFTT--trace((XIJK(:,: k)-XXX(,: k)) *(XIK(:,: k)-XXX(,:,k))); 
end 
TOL-abs((LFTT-LF)/LF); 
LFT-[LFT,LFTT]; 
LF-LFTT; 
M-7Mr-1; 


end; 


% post-processing to keep sign convention 
[maxa,inda |-max(abs(A)); 
[maxb,indb]-max(abs(B)); 
asign-ones(N,l); 
bsign-ones(N,1); 
for n=1:N 
asign(n)-sign(A (inda(n),n)); 
bsign(n)esign(B(indb(n),n)); 
end 
A-A*diag(asign); 
B-B*diag(bsign); 
C-C*diag(asign)*diag(bsign); 

AX. SWATLD 算法 的 MATLAB 程序 
function [A,B,C,LFT,M]-SWATLD(XK,N,epsilon) 
% 


% XIJK is one three-way data array with the size of I*J*K 


% epsilon is tolerance. 





% I is the number of rows 

% J is the number of columns 

% K is the number of channels 

% N is the number of components 

% LFT is the loss function 

% M is the iterative number 

% A(LN),B(JN),C(K;N) 

% 

% State Key Laboratory of Chemo/Biosensing and Chemometrics, 
% College of Chemistry and Chemical Engineering, 

% Hunan University, Changsha 410082, China. 

% &Hai-Long Wu (hlwu@hnu.edu.cn)& Ru-Qin Yu (rqyu@hnu.edu.cn) 


% decompose the cube X along I,J.K direction respectively 
if nargin < 3 

epsilon-10*eps*norm(XK,1)*max(size( XK)); 

end 

[LJ,K]esize(XIJK); 

XK-reshape(XIJK,I,J*K); 

XJKI-shiftdim( XIJK,1); % cut X along I direction 
XKIJ-shiftdim( XJKT,1); % cut X along J direction 
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% initialize A & B and compute C 

A-rand(LN); 

B-rand(J,N); 

*4[A,B,C]-SWATLD(XIJK;N); 

PA-pinv(A,epsilon); 

PB-pinv(B,epsilon); 

for k=1:K 

CC-0.5*(diag(PB* XIJK(:.:, k)'*A)./diag( A"* A)*-diag(PA* XIJK(:,: k)*B)./diag(B'*B)); 
C(k,:)=CC'; 

end 


% start to calculateLFT and do iteration 
TOL=10; 


while TOL > epsilon && M « 500 
% compute A according B and C 
PC-pinv(C,epsilon); 
for i-1:l 
AA-0.5*(diag(PC* XJKI(:,:,1) *B)./diag(B'*B)*diag(PB* XJKI(:,:,1)*C)./diag(C'*C)); 
A(i,:)5AA'; 
end 
% normalizeA columnwisely 
A-A*diag(1./diag(sqrt(A'*A))); 
% compute B according A and C 
PA-pinv(A,epsilon); 
for j=1:J 
BB-0.5*(diag(PA*XKIJ(:,:.j) *C)./diag(C'*C)*diag(PC*XKIJC,:,j)*A)./diag(A'*A)); 
B(j,:)=BB'; 
end 
% normalize B columnwisely 
B-B*diag(1./diag(sqrt(B'*B))); 
% compute C according A and B 
PA-pinv(A,epsilon); 
PB-pinv(B,epsilon): 
for k-1:K 
CC-0.5*(diag(PB* XIJK(:.:, k)'*A)./diag(A' * A)*-diag(PA* XIJK(:,: k)*B)./diag(B'*B)); 
C(k,:)-CC*; 
end 


%calculate the loss function 

LFTT-0; 
for k=1:K 
XXX(.Lk)-A*diag(C(k,:))*B'; 
LFTT-LFTT-trace((XIJK(:,:,k)-XXX(:,: K)) *(XIJK(:,: K)-XXX(:.:k))); 
end 

TOL-abs((LFTT-LF)/LF); 

LFT-[LFT,LFTT]; 


LF-LFTT; 
M=M+1 7 
end 
9 ------------ STEP 3--------------- 


% post-processing to keep sign convention 
[maxa.inda]-max(abs(A)); 
[maxb,indb]-max(abs(B)); 
asign-ones(N.1); 
bsign-ones(N,1); 

for n=1:N 

asign(n)-sign(A (inda(n),n)); 
bsign(n)-sign(B(indb(n),n)); 
end 

A-A*diag(asign); 
B-B*diag(bsign); 
C-C*diag(asign)*diag(bsign); 


九 、APTLD 算法 的 MATLAB 程序 


function [A,B,C,LFT,M]-APTLD(XIJK,N,epsilon) 

% 

% XIJK is one three-way data array with the size of I*J*K 
% epsilon is tolerance. 

% Tis the number of rows 

% J is the number of columns 

% K is the number of channels 

% N is the number of components 

% LFT is the loss function 

% M is the iterative number 

96 A(LN),B(JIN),C(K,N) 

% State Key Laboratory of Chemo/Biosensing and Chemometrics, 
% College of Chemistry and Chemical Engineering, 

% Hunan University, Changsha 410082, China. 

% ® Hai-Long Wu (hlwu(ghnu.edu.cn) 
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% decompose the cube X along 1,J,K direction respectively 
if nargin < 3 

epsilon-10*eps*norm(XK,1)*max(size(XK)); 

end 

[L.J, K]7size( XIJK); 

XK-reshape(XlJK,L,J*K); 

XJKI-shiftdim(XIJK,1); %cut X along I direction 
XKIJ-shiftdim(XJKI,1); %cut X along J direction 


% initialize A & B and compute C 
A-rand(IL,N); 
B-rand(J,N); 
96 [A,B,C]-dtld(XIJK,N); 
CD1=0; CD2-0; CD3=0; CD4-0; aa-0; bb-0; 
p=10^20; q710^20; r-10^20; 
Wa-diag(1./diag(A'*A)); 
Whb-diag(1./diag(B'*B)); 
PA-pinv(A,epsilon); 
PB-pinv(B,epsilon); 
for 1=1:] 
CDI-7CDI *XJKI(:,:.i) *PB'*Wa*diag(A(1,:)); 
aa-aa-diag(A(1,:))* Wa*diag(A(1,:)); 
end 
for j=1:J 
CD2-CD2-*XKIJ(:,:,)) *PPA'*Wb*diag(B(J.:)); 
CD3-2CD3-7XKIUJ(:,:,) *A*diag(B(j,:)): 
CD4-CD4-«diag(B(j.:)) *À'* A*diag(B(j.:)); 
bb-bb-diag(B(j.:))* Wb*diag(B(j.:)); 
end 
C-(p*(CDI-CD2)*CD3)*pinv(p*aatp*bb-CD4A,epsilon); 


% start to calculate LFT and do iteration 
TOL=10; 

M=0; 

LFT=[]; 

LF-0.01; 


while TOL > epsilon && M < 500 
% compute A according B and C 


AD1-70; AD2-0; AD3-0; AD4=0; bb=0; cc-0; 
Wc-diag(1./diag(C'*C)); 
PC-pinv(C,epsilon); 
for j21:J 
ADI-ADI-XKIJ(, ,j) *PC'* Wb*diag(B(j,:)); 
bb-bb--diag(B(j,:)) * Wb*diag(B(j.:)); 


end 

for k=1:K 
AD2-AD2-*XIJK(;,:, k)* PB'* Wc*diag(C(k.:)); 
AD3-AD3-*XIJK(:,:; kK)*B*diag(C(k.:)): 
AD4-AD4A-*diag(C(k.:))*B'*B*diag(C(k,:)); 
cc-cce-diag(C(k,:)) *We*diag(C(k,:)); 

end 


A-(r*(ADI*-AD2)*AD3)*pinv(r*bb-r*ccADA,epsilon); 
% normalizeA columnwisely 
A-A*diag(l./diag(sqrt(A'*A))); 
% compute B according A and C 
BD1=0; BD2-0; BD3-0; BD4-0; cc-0;aa-0; 
Wa-diag(1./diag( A'*A)); 
PA-pinv(A.epsilon); 
for k=1:K 
BD1=BD1+XIJK(:,:,k)'*PA'*Wc*diag(C(k,:)); 
cc=cc+diag(C(k,:))* Wc*diag(C(k,:)); 
end 
for i-l:I 
BD2-BD2-XJKI(:,:,i) *PC"*Wa*diag(A(1,:)); 
BD3-BD3-XJKI(.:,1)*C*diag(A(1,:)); 
BD4-BD4-diag(A(1,:))*C'*C*diag(A(1,:)): 
aa-aa-tdiag(A(1,:))* Wa*diag(A(1,:)); 
end 
B-2(q*(BD1-4*BD2)-BD3)*pinv(q*cc4tq*aa* BD4,epsilon); 
% normalize B columnwisely 
B-B*diag(1./diag(sqrt(B'*B))); 
% compute C according A and B 
CD120; CD2=0; CD3-0; CD4=0: aa=0: bb-0; 
Wa-diag(1./diag( A"*A)); 
Wb-diag(1./diag(B'*B)); 
PA-pinv(A,epsilon); 
PB-pinv(B,epsilon); 
for i-l:I 
CDI-CDI -XJK1(:,:,1) *PB'*Wa*diag(A(i,:)); 
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aa-aa*diag(A(1,:))* Wa*diag(A(1,:)); 
end 
for j=1:J 
CD2-CD2-7XKIUIJ(:,:,]) *PPA"*Wb*diag(B(].:)); 
CD3-CD3-XKTJ(:,:,)) * A*diag(B(j,:)): 
CD4-CD4-diag(B(j,:)) * A A*diag(B(].:)); 
bb-bb-diag(B(j,:)) * Wb*diag(B(].:)); 
end 
C-(p*(CD1-CD2)-CD3)*pinv(p*aa*p*bb-CDA,epsilon); 
% calculate the loss function 
LFTT-0; 
for k- 1:K 
XXX(:,: k)-A*diag(C(k,:))*B'; 
LFTT-LFTT-^trace(( XIJK(:,: k)-XXX(:,: k)) *(XIJK( K)-XXX(,k))): 
end 
TOL-abs((LFTT-LF)/LF); 
LFT-[LFT,LFTT]; 
LF-LFTT; 
M=M+l1; 


%post-processing to keep sign convention 
[maxa,inda]-max(abs(A)); 
[maxb,indb]-max(abs(B)); 
asign-ones(N,1); 
bsign-ones(N,1); 

for nz 1:N 
asign(n)-sign(A(inda(n),n)); 
bsign(n)-sign(B(indb(n).n)); 
end 

A-A*diag(asign); 
B-B*diag(bsign); 
C-C*diag(asign)*diag(bsign); 


cT. APQLD 算法 的 MATLAB 程序 


function [A,B,C,D,LFT,M]-APQLD(XIJKL.,K,L,N,epsilon) 
96 





% XIJKL is one four-way data array with the size of I*J*K*L 
% epsilon is tolerance. 
% Tis the row 


95 J is the column 


% K is the channel 

% L is the second channel 

% N is the estimated component number 

% LFT is the loss function 

% M is the iterative number 

% State Key Laboratory of Chemo/Biosensing and Chemometrics, 
% College of Chemistry and Chemical Engineering, 

% Hunan University, Changsha 410082, China. 

96 ® Hai-Long Wu (hlwu(ghnu.edu.cn) 

% 





% decompose the cube X along I,J,K,L direction respectively 


if nargin < 5 
epsilon-10*eps*norm(XL,1)*max(size( XIJKL)); 
end 


[LJ,K,L]»size(XIJKL); 

XJKLI-shiftdim(XlJKL, 1); 
XKLIJ-shiftdim(XJKLI,); 
XLIJK-shiftdim( XKLIJ,1); 


% initialize A & B & C and compute D 
A-rand(LN); 

B-rand(J,N); 

C-rand(K,N); 

FD1=0; FD2=0; FD3-0; FD4-0; 
p=10^20; q=10^20; r=10^20; s-10^20; 
Wa-diag(1./diag( A'*A)); 
Wb-diag(1./diag(B'*B)); 
We-diag(1./diag(C'"*C)); 
PA-pinv(A,epsilon); 





PC-pinv(C,epsilon); 

for j=1:J 

for k=1:K 
FDI-FD1-XLUK(,:,j k)*(A*p*PA'*Wa^2)*diag( B(,:)*diag(C(k,:))): 
FD2-FD2-diag(C(k,:))*diag(B(j,:)) *(A'* A*-p*Wa)*diag(C(k,:))*diag(B(],:)); 

end 

end 

for i-l:I 


for j-1:J 
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FD3-FD3-XKLIUJ(:,:,1,j) *PC'*We*diag(A(i,:))*diag(B(j.:)); 
FD4-FD4-diag(A(1,:))*diag(B(J.:)) * Wc*diag(A(1,:))*diag(B(].:)); 
end 
end 
D-«(FDI-*p*FD3)*pinv(FD2-*p*FD4A,epsilon); 


% start to calculate LFT and do iteration 

TOL-10; 

M70; 

LFT-[]; 

LF-0.01; 

while TOL > epsilon && M < 3000 
% compute A according B, C and D 
FA1=0; FA2=0; FA3=0; FA4=0; 
Wd-diag(1./diag(D'*D)); 
PB-pinv(B,epsilon); 








PD-pinv(D,epsilon); 


for k-1:K 
for I-1:L 
FAI-FAI1-XIJKL(,:,k,l)*(B^-q*PB'* Wb)*diag(D(l.:))*diag(C(k,:)); 
FA2-FA2-diag(D(L:))*diag(C(k,:)) *(B'*B-q*Wb)*diag(D(l,:))*diag(C(k,:)); 
end 
end 
for j=1:J 
for k-1:K 
FA3-FA3-XLIJK(:,:,j,K) *PD'* Wd*diag(B(j,:)) *diag(C(k,:)): 
FA4-FA4-diag(B(j.:))*diag(C(k,:)) *Wd*diag(B(j.:))*diag(C(k.:)): 
end 
end 


A-(FAl-tq*FA3)*pinv(FA2-q*FAA,epsilon); 
% normalizeA columnwisely 
A-A*diag(1./diag(sqrt(A'* A))); 
% compute B according A, C and D; 
FB1=0; FB2=0; FB3-0; FB4-0; 
Wa-diag(1./diag( A"*A)); 
PA-pinv(A.,epsilon); 
for l=1:L 
for i-1:l 
FBI-FBI-XJKLI:,:.Li)*(C*r*PC'*Wo)*diag(A(1,:))*diag(D(l.:)); 
FB2-FB2-*diag(A(i,:))*diag(D(1,:)) *(C'*C*r* Wo)*diag(D(l1,:))*diag(A(1,:)); 
end 


附 录 
end 
for k=1:K 
for I-1:L 
FB3-FB3-XUKL(:,:,k.l) *PA"*Wa*diag(C(k,:))*diag(D(l,:)); 
FB4-FB4-diag(C(Kk,:))*diag(D(l1,:))* Wa*diag(D(1,:))*diag(C(k,:)); 
end 
end 


B-(FBI-«r*FB3)*pinv(FB2-4r*FB4A,epsilon); 
% normalize B columnwisely 
B-B*diag(l./diag(sqrt(B'*B))); 

% compute C according A, B and D 

FC1=0; FC2=0; FC3=0; FC4=0; 

Wb=diag(1./diag(B'*B)); 

PB-pinv(B,epsilon); 








for i-l:I 
for jz1:J 
FCI-FCI-XKLIJ(,:,1,)) *(Dt*s*PD'*Wd)*diag(B(j.:))*diag(A(1,:)); 
FC2-FC2-diag(A(i,:))*diag(B(j.:)) (D'*D-s*Wd)*diag(A(1,:))*diag(B(j,:)): 
end 
end 
for l=1:L 
for 1=1:1 
FC3-FC3-XJKLI,:, 1,1) *PB'*Wb*diag(D(l,:))*diag(A(1,:)): 
FC4-FC4-diag(D(L.:))*diag(A(i,:)) * Wb*diag(D(l,:))*diag(A(1,:)): 
end 
end 


C-(FCI-s*FC3)*pinv(FC2-*s*FCA,epsilon); 
% normalize C columnwisely 
C-C*diag(1./diag(sqrt(C'*C))); 

% compute D according A, B and C 

FD1=0; FD2=0; FD3=0; FD4-0; 

Wa-diag(1./diag( A'* A)); 

Whb-diag(l./diag( B'*B)); 

Wc-diag(1./diag(C'*C)); 

PA-pinv(A.epsilon); 

PC-pinv(C,epsilon); 


for j=1:J 
for k-1:K 


end 


FDI-FDI-XLUK(:.:.j.K)*(A*p*PA'*Wa)*diag(B(j.:)*diag(C(k.:))): 
FD2-FD2-*diag(C(k.:))*diag(B(j,:)) *(A'*A*p*Wa)*diag(C(k,:))*diag(B(].:)); 
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end 
for i=1:I 
for j=1:J 
FD3-FD3-XKLIJ(:,:,1,)) *PC'*Wc*diag(A(1,:))*diag(B(].:)); 
FD4-FD4-diag(A(i.:))*diag(B(j,:)) *Wc*diag(A(1,:))*diag(B(j.:)); 
end 
end 


D-(FDI-p*FD3)*pinv(FD2-*p*FDA,epsilon); 
% compute loss function 
LFTT-0; 
for k=1:K 
for I-1:L 
XXX(:.uk,lI)2A*diag(D(l;:))*diag(C(k,:))*B'; 


LFTT-LFTT-trace(( XIJKL(:,: k,D-XXX(,k,D) *(XIJKL(,k,D-XXX(.k.); 
end 
end 
TOL-abs((LFTT-LF)/LF); 
LFT-[LFT,LFTT]; 


LF-LFTT; 
M-2M-1; 
end 
9 ------------ STEP 3--------------- 


yopost-processing to keep sign convention 
[maxa,inda ]-max(abs( A )); 
[maxb,indb]-max(abs(B)); 


[maxe,indc]-max(abs(C)); 


asign-ones(N.1); 
bsign-ones(N.1); 
csign-ones(N,l); 

for nz 1:N 
asign(n)-sign(A(inda(n),n)); 
bsign(n)-sign(B(indb(n),n)); 
csign(n)-sign(C(indc(n),n)); 
end 

A-A*diag(asign); 
B-B*diag(bsign); 
C-C*diag(csign); 
D-D*diag(asign)*diag(bsign)*diag(csign); 


Hox 789 | 


E R 语言 及 其 在 化 学 计量 学 中 的 应 用 


一 、R 是 什么 


生物 信息 学 社区 时 常 使 用 R 进行 分 子 生物 学 数据 分 析 。Bioconductor 计划 就 是 让 R 作 
为 基因 图 谱 分 析 工 具 。Gnumeric 开发 者 正和 R 开发 者 合作 ， 改 善 Gnumeric 计算 结果 的 精 
确 度 。R 是 一 个 有 着 统计 分 析 功 能 及 强大 作 图 功能 的 软件 系统 ， 它 是 一 个 同时 拥有 图 形 工 
具 、 调 斌 器、 函数 、 可 运行 的 脚本 等 功能 的 实时 命令 行 运行 环境 的 高 级 语言 。R 本 来 是 由 来 
自 新 西 兰 奥克兰 大 学 的 Ross Ihaka 和 Robert Gentleman 开发 (也 因此 称 为 R)， 现 在 由 “R 
开发 核心 团队 ”负责 开发 。R 是 基于 S 语言 的 一 个 GNU 计划 项 目 ， 所 以 也 可 以 当 作 S 语言 
的 一 种 实现 ， 通 常用 S 语言 编写 的 代码 都 可 以 不 做 修改 地 在 R 环境 下 运行 。 所以， 可 以 说 
R 语言 是 由 AT&T 贝尔 实验 室 所 创 的 S 语言 发 展 出 来 的 一 种 语言 。 

R 是 统计 领域 广泛 使 用 的 诞生 于 1980 年 左右 的 S 语 言 的 一 个 分 支 。 可 以 认为 RR 是 S 语 
言 的 一 种 实现 。 而 S 语言 是 由 ATAT 贝尔 实验 室 开 发 的 一 种 用 来 进行 数据 探索 、 统 计 分 析 
和 作 图 的 解释 型 语言 。 最 初 S 语言 的 实现 版 本 主要 是 S 一 PLUS。S 一 PLUS 是 一 个 商业 软 
ft. EF S 语言 ， 并 由 MathSoft 公司 的 统计 科学 部 进一步 完善 。R 的 语法 是 来 自 
Scheme, R 的 使 用 与 S 一 PLUS 有 很 多 类 似 之 处 ， 这 两 种 语言 有 一 定 的 兼容 性 。S 一 PLUS 
的 使 用 手册 ， 只 要 稍 加 修改 就 可 作为 R 的 使 用 手册 。 所 以 有 人 说 : RÆ S 一 PLUS 的 一 个 “克隆 ”。 

R 的 源 代码 可 自由 下 载 使 用 ， 亦 有 已 编译 的 可 执行 文件 版 本 可 以 下 载 ， 并 可 在 多 种 平台 
下 运行 ， 包括 UNIX (也 包括 FreeBSD 和 Linux), Windows 和 MacOS, R 语言 虽 不 收取 任 
何 费用 ， 但 是 它 的 能 力 不 会 比 任何 同类 型 商业 软件 差 。 从 功能 相似 的 角度 来 说 ，R 语言 和 
MATLAB 语言 最 像 。 

R 内 置 多 种 统计 学 及 数字 分 析 功 能 。R 的 功能 也 可 以 通过 安装 包 (Packages， 用 户 撰 写 
的 功能 ) 增强 。 因 为 S 的 血缘 ，R 比 其 他 统计 学 或 数学 专用 的 编程 语言 有 更 强 的 面向 对 象 
(面向 对 象 程 序 设计 ) 功能 。 同 时 ，R 是 一 种 解析 性 计算 机 高 级 语言 ， 它 拥有 条 件 语句 和 循 
环 语句 以 及 函数 模块 化 编程 等 功能 。 大 多 数 使 用 者 可 以 使 用 的 已 发 布 的 了 函数 都 是 用 RR 语 
言 来 编写 ， 特 别 方便 的 是 ， 它 允许 调用 使 用 C、C 十 十 、 或 者 FORTRAN 等 语言 编写 的 程序 
接口 。 发 布 的 函数 包 里 包括 大 量 的 统计 方法 ， 其 中 如 线性 和 广义 线性 模型 ， 非 线性 回归 模 
型 ， 时 间 序 列 分 析 ， 经 典 的 参数 和 非 参 数 佑 计 ， 聚 类 以 及 平滑 方法 ， 等 等 。 这 些 额 外 的 模块 
都 可 以 通过 加 载 扩 展 包 来 完成 特定 的 目的 。 

R 内 含 了 许多 实用 的 统计 分 析 及 作 图 函数 。 作 图 函数 能 将 产生 的 图 片 展示 在 一 个 独立 的 
窗口 中 ， 并 能 将 之 保存 为 各 种 形式 的 文件 。 统 计 分 析 的 结果 也 能 被 直接 显示 出 来 ， 一 些 中 间 
结果 (如 尸 值 、 回 归 系 数 、 残 差 等 ) 既 可 保存 到 专门 的 对 象 中 ， 也 可 以 直接 用 作 进 一 步 的 
分 析 。 

二 、R 的 安装 

构成 R 软件 的 完整 的 计算 系统 由 两 个 主要 部 分 组 成 : 维护 R 的 核心 团队 提供 的 标准 
(基础 ) 包 和 R 使 用 者 捐献 的 扩展 包 。 标 准 (基本 ) 包 构 成 R 原 代码 的 一 个 重要 部 分 。 它 们 
包括 允许 R 工作 的 基本 函数 ， 本 文档 中 描述 的 数据 集 ， 标 准 统计 方法 和 图 形 工具 。 在 任何 
R 的 安装 版 本 中 ， 它 们 都 会 被 自动 获得 。 扩 展 包 是 R 使 用 者 捐献 的 包 ， 它 严格 按照 RR 包 的 
规范 ， 有 完整 的 说 明文 档 ， 附 带 数 据 集合 以 及 展示 的 例子 程序 和 图 形 等 ， 扩 展 包 往往 是 某 
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特殊 领域 或 者 某 一 统计 方法 的 人 研究 成 果 。CRAN 为 Comprehensive R Archive Network (R 
综合 典藏 网 ) 的 简称 。 它 除了 收藏 了 R 的 可 执行 文件 下 载 版 、 源 代码 和 说 明文 件 ， 也 收录 
了 各 种 用 户 撰 写 的 软件 包 。 现 时 ,全球 有 超过 一 百 个 CRAN 镜像 站 。 

所 有 的 基础 包 和 扩展 包 都 发 布 在 R 综合 网 络 档 案 (CRAN) 里 ,详细 可 以 参考 下 面 
网 址 : 

http; //CRAN. R-project. org 

基础 包 提 供 源 代码 支持 在 Unix 系统 、windows 系统 和 MacOS 系统 等 不 同 的 操作 系统 
里 编译 安装 ， 使 用 者 可 以 通过 下 载 分 布 的 预 编译 二 进 制 安装 文件 安装 R 软件 ，windows 系 
统 用 户 可 以 下 面 的 链接 : 

http; //CRAN. R-project. org/bin/windows/base/release. htm 

下 载 相应 的 文件 (目前 最 新 的 版 本 R-3. 2. 0-win. exe) ， 双 击 下 载 的 本 地 文件 执行 并 按 
照 指引 安装 程序 。 启 动 程序 ， 得 到 命令 行 窗口 中 显示 如 下 : 





























R version 3. 2.0 (2015 — 04 — 16) "Full of Ingredients" 
Copyright (C) 2015 The R Foundation for Statistical Com puting 
Platform 1x86. 64 — w64 —mingw32/264 (64 —bit) 











安装 完成 后 ， 程 序 会 创建 R 程序 组 并 在 桌面 上 创建 R 主 程序 的 快捷 方式 (也 可 以 在 安 
装 过 程 中 选择 不 要 创建 )。 通 过 快捷 方式 运行 R,， 便 可 调 出 R 的 主 窗口 。 类 似 于 许多 以 编程 
方式 为 主要 工作 方式 的 软件 ，R 的 界面 简单 而 朴素 ， 只 有 不 多 的 几 个 菜单 和 快捷 按钮 。 快 捷 
按钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗口 ， 有 些 运 算 结果 则 会 输 
出 在 新 建 的 窗口 中 。 

主 窗口 上 方 的 一 些 文字 是 刚 运行 R 时 出 现 的 一 些 说 明和 指引 。 文 字 下 的 : > 符号 便 是 
R 的 命令 提示 符 ， 在 其 后 可 输出 命令 ; 二 符号 后 的 矩形 是 光标 。R 一 般 是 采用 交互 方式 工作 
的 ， 在 命令 提示 符 后 输入 命令 ， 回 车 后 便 会 输出 结果 ，。 

在 朴素 的 界面 下 ， 是 丰富 而 复杂 的 运算 功能 。 

R 是 自由 软件 ， 不 带 任何 担保 。 在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 license O ' 或 'licence O ' 来 看 散布 的 详细 条 件 。 
R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 。 
用 'contributors O ' 来 看 合作 者 的 详细 情况 。 
用 'citation O ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 RR 或 RR 程序 包 。 
H'demo O ' 来 看 一 些 示范 程序 ， 用 'help O ' 来 阅读 在 线 帮 助 文件 ， 或 
Hj'help.start O ' 通 过 HTML 浏览 器 来 看 帮助 文件 。 
H'a O ' 退 出 R. 


三 、 加 载 包 


R 的 功能 能 够 通过 由 用 户 撰 写 的 包 增 强 。 增 加 的 功能 有 特殊 的 统计 技术 、 绘 图 功能 ， 以 
及 编程 接口 和 数据 输出 /输入 功能 。 这 些 软 件 包 是 由 R 语言 、LaTeX、Java 及 最 常用 的 C 语 
言 和 Fortran 撰写 。 下 载 的 可 执行 文件 版 本 会 连同 一 批 核心 功能 的 软件 包 ， 而 根据 CRAN 
纪录 有 过 干 种 不 同 的 软件 包 。 其 中 有 几 款 较为 常用 ， 例 如 用 于 经 济 计量 、 财 经 分 析 、 人 文科 
学 研究 以 及 人 工 智能 。 

基础 包 是 在 安装 程序 的 自动 获取 的 ， 在 版 本 R 3. 2.0 中 ， 可 以 通过 在 控制 台中 输入 一 下 































































































命令 可 以 浏览 该 版 本 所 包含 的 所 有 基础 包 : 


>View (installed. packages () ) 


所 有 的 基础 包 的 名 字 如 下 : 
boot nlme KernSmooth MASS 
base class cluster datasets 
foreign  grDevices graphics grid 
lattice methods | mgcv nnet 
rpart spatial splines stats 
stats4 survival tcltk tools 
utils Matrix translations 





下 面 对 部 分 的 基础 包 做 简单 的 介绍 




















base 基本 R 函数 

datasets 基本 R 数据 集 

grDevices 基本 的 或 grid 图 形 的 设备 函数 
graphics 基本 图 形 水 数 

grid grid 图 形 

methods 用 于 R 对 象 和 编程 工具 的 方法 和 类 的 定义 
splines 样 条 回归 函数 和 类 

stats 统计 函数 

tools 包 开 发 和 管理 的 工具 

utils R 工具 函数 

boot 抽样 和 bootstraping 方法 
class 分 类 方法 

cluster 聚 类 方法 

KernSmooth REMATE 

nlme 线性 和 非 线性 混合 效应 模型 
nnet 神经 网 络 和 多 项 对 数 线性 模型 
survival 生存 分 析 
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基础 包 是 安装 R 软件 时 候 自 带 的 ， 其 他 开发 者 开发 的 扩展 包 可 以 在 R 软件 的 命令 行 提 
示 符 中 直接 安装 和 加 载 。 使 用 某 一 扩展 包 时 ， 只 有 当 一 个 包 被 载 和 时 ， 包 的 函数 和 数据 集 才 

















可 以 被 访问 。 这 样 做 一 是 为 了 高 效 ， 二 是 为 了 帮助 包 的 开发 或 者 防止 命名 和 3 


其 他 代码 中 的 名 








字 冲 突 。 越 来 越 多 的 来 自 不 同 研究 领域 的 扩展 包 被 开发 者 发 布 ， 几 乎 涵盖 了 所 有 的 统计 和 学 方 


法 ， 其 中 也 包括 了 处 理 多 变量 数据 的 化 学 计量 学 方法 的 扩展 包 。 
保证 网 络 畅 通 ， 通 过 提供 扩展 包 的 名 称 给 也 数 Install. packages 就 可 以 
例如 安装 化 学 计量 学 扩展 包 chemometrics: 

















安装 该 扩展 包 ， 
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> install. packages (" chemometrics " ) 

把 扩展 包 加 载 进 软件 里 ， 才 能 使 用 扩展 包 里 的 函数 和 数据 集 等 内 容 

library (" chemometrics " ) 

其 他 的 扩展 包 可 以 通过 下 面 的 网 址 获取 : 

http: /CRAN. R— project. org 

可 以 在 上 述 网 址 的 扩展 包 列 表 中 下 载 适 合 自己 计算 机 操作 系统 的 预 编译 文件 到 本 地 文 
E R 软件 中 直接 安装 和 加 载 。 


四 、 在 中 如 何 获取 帮助 


在 线 帮助 (基础 包 和 扩展 包 都 有 比较 详细 的 使 用 手册 ,包括 函数 说 明 ， 展 示例 子 和 图 文 
说 明 )， 电子 手册 和 出 版 书籍 等 都 是 主要 的 求助 方法 。 

帮助 系统 收集 了 用 户 所 有 可 用 的 函数 和 数据 集 的 使 用 手册 ， 通 过 help 〈(“ 函 数 名 称 ”) 
函数 ，R 软件 将 寻找 与 此 名 称 相关 的 所 有 函数 ， 使 用 手册 将 在 本 地 文件 或 者 以 网 页 的 形式 
展示 : 

> help (" mean" ) 

或 者 更 加 简洁 点 : 

> ? mean 

每 一 个 使 用 手册 都 有 通用 的 描述 ， 函 数 的 参数 列表 及 每 个 参数 的 说 明 ， 函 数 的 返回 值 列 
表 及 每 个 返回 值 的 说 明 ， 大 多 情况 下 都 有 可 执行 的 例子 ， 引 用 的 参考 文献 ， 交 又 关联 的 类 似 
图 数 等 。 如 果 要 浏览 扩展 包 的 使 用 手册 文档 也 是 可 以 的 ， 如 求助 chemometrics &: 

> help (package=" chemometrics" ) 

更 多 更 全 的 R 软件 的 使 用 手册 都 可 以 在 下 面 网 址 中 获取 到 : 

http: / CRAN. R— project. org/manuals. html 

下 述 4 个 文档 是 R 开发 者 核心 团队 提供 的 ， 对 于 初学 者 ， 下 面 第 一 和 第 二 个 文档 是 必 看 的 : 
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An Introduction to R 一 个 更 加 正式 和 全 面 的 使 用 R 做 数据 分 析 的 介绍 。 

Data Import/Export 一 个 非常 有 用 的 关于 如 何 读 写 各 种 外 部 数据 文件 的 详细 描述 。 
R Installation and Administration 提示 如 何在 特殊 的 平台 中 安装 R。 

Writing R Extensions ”如 何 编写 符合 规范 的 R 扩展 包 。 


五 、R 中 的 数据 


大 的 数据 对 象 常常 是 从 外 部 文件 中 读 入 ， 而 不 是 在 R 对 话 时 用 键盘 输入 的 。R 的 导入 
工具 非常 简单 但 是 对 导入 文件 的 格式 有 一 些 比较 严格 甚至 顽固 的 限制 。read. table 函数 是 读 
取 和 矩阵 形式 数据 的 最 好 方法 ， 如 果 变 量 主要 在 数据 框 中 操作 ， 强 烈 建议 整个 数据 框 用 孔 数 
read. table O 读 入 。 

对 于 在 文件 读 取 和 写 入 的 工作 ，R 使 用 工作 目录 来 完成 。 可 以 使 用 命令 getwd O (获得 
工作 目录 ) 来 找到 目录 ,使 用 命令 setwd (" C: /data" ) 或 者 setwd (" /home/paradis/ 
R" ) 来 改变 目录 。 如 果 一 个 文件 不 在 工作 目录 里 则 必须 给 出 它 的 路 径 。 

> write. table (glass, file—" glass. txt". row. names — FALSE) # 生 成 数据 文件 

使 用 write. table 函数 在 当成 工作 目录 中 生成 数据 文件 glass. txt， 打 开 文 件 的 前 6 行 如 
下 所 示 : 


















































附录 


" Na20" " MgO" " Ab;Os" " SiO" " P0;"" SO;"" CI" " KoO0" " CaO" " 
MnO" " FeO" " BaO" " PhO” 

13. 904 2. 244 1. 312 67. 752 0. 884 0. 052 0. 936 3. 044 8. 784 0. 674 0. 364 0. 04 0. 004 

14. 194 2. 184 1. 31 67. 076 0. 938 0. 024 0. 966 3. 396 8. 636 0. 698 0. 336 0. 04 0. 198 

14. 668 3. 034 1. 362 63. 254 0. 988 0. 064 0. 886 2. 828 11. 088 1. 24 0. 4 0. 046 0. 134 

14. 8 2. 455 1. 385 63. 79 1. 2 0. 115 0. 988 2. 878 10. 833 0. 978 0. 433 0. 025 0. 12 

14. 078 2. 48 1. 072 68. 768 0. 682 0. 07 0. 966 2. 402 8. 808 0. 31 0. 242 0. 022 0. 102 


> data«— read. table (" glass. txt", header=TRUE) ， 井 读 取 数据 文件 ， 第 一 行为 名 称 





> head (data) # 查看 数据 的 前 6 íT 


NazO MgO AlO; SiO? P:0; SO; Cl K:O CaO MnO Fe2O0; BaO PbO 


1 13. 904 2. 244 1.312 67. 752 0. 884 0. 052 0.936 3.044 8. 784 0.674 0.364 0.040 0.004 
2 14. 194 2. 184 1. 310 67. 076 0. 9338 0. 024 0. 966 3. 396 8. 636 0. 698 0. 336 0. 040 0. 198 
3 14.668 3. 034 1. 362 63. 254 0. 988 0. 064 0. 886 2. 828 11. 088 1. 240 0. 400 0. 046 0. 134 
4 14. 800 2. 455 1. 385 63. 790 1. 200 0. 115 0. 988 2.878 10. 833 0. 978 0. 433 0. 025 0. 120 
5 14.078 2. 480 1. 072 68. 768 0. 682 0. 070 0. 966 2. 402 8. 808 0. 310 0. 242 0. 022 0. 102 
6 13. 600 1. 648 2.012 69. 628 0. 698 0. 038 0. 908 3.196 6.160 1.170 0.650 0.156 0. 136 








其 中 header— TRUE 选项 指定 第 一 行 是 标题 行 ， 并 且 因 此 省 略 文件 中 给 定 的 行 标签 。 
通用 函数 read. csv 和 read. delim 则 是 调用 了 read. table ER X. Jp] b f — RAX, 
用 来 读 取 CSV 和 制 表 符 分 割 文件 ， 原 理 和 参数 基本 和 read. table — t. 
有 时 候 数据 文件 中 的 字段 没有 分 隔 符 ， 但 是 字段 实现 制定 了 列 的 情况 。 通 过 指定 一 个 包 
含 字 符 宽 度 的 向 量 ，read. fwf 函数 提供 读 取 这 种 文件 的 简单 途径 。 如 名 为 data. txt 的 文件 的 
第 一 行 的 数值 为 A1. 501.2， 通 过 read. fwf 函数 读 取 的 到 数据 为 : 









































-"mydata <— read.fwf (" data. txt", widths c (1. 4. 3) D H 读 取 固定 宽度 数据 
文件 
> mydata 
Vl V2 V3 
1 A 1.50 1.2 





read. table 函数 读 取 大 数值 矩阵 是 缺乏 效率 的 ， 参 见 scan KA% K% scan HE read. table 
和 read. fwf 要 更 加 灵活 ， 它 们 的 区 别 之 一 是 前 者 可 以 指定 变量 的 类 型 ， 例 如 : 
> mydata <— scan (" data.txt", what —list (" ", 0, 0) ) # 读 取 多 种 类 型 数据 
的 数据 文件 

读 取 了 文件 data. dat 中 三 个 变量 ， 第 一 个 是 字符 型 变量 ， 后 两 个 是 数值 型 变量 。 在 缺 
省 情况 下 ， 也 就 是 说 ， 如 果 what 被 省 略 ，scan O 将 创建 一 个 数值 型 向 量 。 如 果 读 取 的 数 
据 类 型 与 缺 省 类 型 或 指定 类 型 不 符 ， 则 将 返回 一 个 错误 信息 。 

另外 从 其 他 统计 软件 以 及 科学 计算 软件 中 导 和 人 数据 。 
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PRA read. xport 导入 SAS 的 可 交换 格式 文件 ， 返 回 一 个 包含 数据 框 的 列表 。 

函数 read. spss 读 取 SPSS 中 保存 和 导出 的 文件 ， 返 回 由 保存 数据 集中 每 个 变量 组 成 的 
一 个 列表 。 

函数 readMat 读 取 MATLAB 中 保存 的 mat 文件 ,该 孔 数 保存 在 加 载 包 R. matlab 里 ， 

加 载 进来 即 可 使 用 ， 返回 由 保存 数据 集中 每 个 变量 组 成 的 一 个 列表 。 

仪器 保存 的 netCDF 格式 的 文件 ， 通过 RNetCDF 包 的 open. nc PE Zt. (E var. get. nc 
Copen. nc (filename)," ordinate values" ) 读 取 相应 的 信息 。 

R 软件 还 可 以 直接 从 数据 库 读 取 数据 ， 并且 还 可 以 通过 SQL 语句 对 数据 库 进行 操作 。 
R 对 于 基于 SQL 语言 的 关系 型 数据 库 有 良好 的 支持 ， 这 些 数据 库 既 有 商业 数据 库 Oracle, 
Microsoft SQL Server, IBM DB2 等 ， 也 包含 在 GNU General Public License (GPL) 下 发 布 
的 MySQL 等 开源 数据 库 。 

RODBC 包 提 供 了 更 为 广泛 数据 库 接口 的 解决 方案 支持 所 有 标准 ODBC 接口 的 数据 库 。 
通过 这 种 方式 ， 相 同 的 R 代码 可 以 方便 地 应 用 于 不 同类 型 的 数据 库 。 





















































> library CRODBC) # 加 载 包 

> ch< —odbcConnect (dsn uid — "user " , pwd =" passwoed ") # 连接 数据 库 
> stocks <—sqlQuery(ch , "select * from quotes") # 操作 数据 库 
> odbcClose (ch) 上 关闭 数据 库 








经 测试 ，Windows 平台 上 的 Microsoft SQL Server, Access, Oracle, MySQL, Post- 
greSQL. M Linux 平台 上 的 MySQL, Oracle, PostgreSQL, SQLite 都 有 良好 的 应 用 案例 


六 、R 语言 的 基础 运算 操作 


1. 对象， 向量， 和 和 矩阵 

在 了 软件 里 对 数据 的 操作 非常 丰富 和 简洁 ， 下 面 根据 一 个 例子 来 详细 介绍 ， 如 chemo- 
metrics 包 里 面 的 “glass” 数 据 集 中 包含 了 180 个 考古 玻璃 器 思 样 本 的 CaO 含量 数据 
(Janssen et al. 1998)。 首 先 把 数据 集 加 载 进 R 的 工作 环境 中 ， 通 过 控制 台 输 入 一 下 命令 可 得 : 





























> library(chemometrics) # 加 载 扩 展 包 进 工 作 环境 

> data("glass" , package "chemometrics") # 加 载 数据 集 

>CaO 去 一 glass[,"CaO"] H 取 数 据 集 子 集 赋值 到 一 个 对 象 
> 1sO # 列举 工作 环境 中 的 所 有 的 对 象 


[1] "CaO" "glass" 





ls 函数 式 列举 当前 工作 环境 中 的 所 有 全 局 的 对 象 ， 如 果 仅 仅 想 列举 自己 感 兴 趣 的 对 象 的 
话 ， 可 以 在 后 面 加 检索 的 条 件 ， 例 如 ， 只 想 查看 带 有 部 分 “C” 字 母 的 对 象 ， 可 以 将 参数 
pattern (可 简写 为 pat) 做 限制 条 件 : 
> ls(pat="C") # 列举 工作 环境 中 的 部 分 的 对 象 
[1] "CaO" 














ls. str d 图 数 是 查看 工作 环境 中 的 对 象 的 详细 情况 ， 列 举 对 象 的 类 型 和 维 数 的 大 小 。 
> 1s. str() # 列举 工作 环境 中 的 部 分 的 对 象 
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CaO: num [1:180] 8.78 8. 64 11. 09 10. 83 8. 81... 
glass: num [1:180,1:13] 13. 9 14. 2 14. 7 14. 8 14. 1... 


> classCglass) # 对 象 glass 的 数据 类 型 
[1] "matrix" 

>class (CaO) # 对 象 CaO 的 数据 类 型 
[1] "numeric" 

> dim(glass) # 对 象 glass 矩阵 的 数据 的 维度 
[1]180 13 

> ncol(glass) # XI 2 glass 矩阵 的 列 个 数 
[1] 13 

> nrow(glass) # 对 象 glass 矩阵 的 行 个 数 
[1] 180 

> length(CaO) # 对 象 CaO 数据 的 长 度 

1] 180 

















可 见 glass 是 一 个 矩阵，Cag 是 一 个 向 量 ， 和 矩阵 可 认为 是 由 多 个 向 量 组 成 的 ， 认 为 向 量 

















是 R 软件 中 的 基本 单位 。 
2. 向 量 的 操作 

22x—c0(45,43,46,48,51,46,50,47,46,45) &JH C 创建 一 个 向 量 
> mean(x) # 求 向 量 的 均值 
[1] 46.7 
> median(x) # 求 向 量 的 中 位 数 
[1] 46 
> max(x) # 求 向 量 的 最 大 值 
[1] 51 
> min(x) # 求 向 量 的 最 大 值 

1] 43 








R 软件 中 的 向 量 的 扩展 性 比较 好 ， 可 以 直接 添加 或 删除 : 


























> x=c(x,48,49,51,50,49) # 添加 数值 到 对 象 x 
> length(x) H 对 象 x MERKE (之 前 为 10) 
[1] 15 
> x[16]—41 # 通过 下 标 添 加 数值 
> x[17:20]—6c(40,38,35,40) # 通过 下 标 添 加 多 个 数值 
还 可 以 有 规律 得 生成 需要 的 向 量 : 
> x<— 1:30 # 生 成 1 到 30 的 向 量 
> seq(1,5,0. 5) # 生 成 1 到 5 间隔 为 0.5 的 向 量 
> seq(length=9,from=1,to=5) # 生 成 1 到 5 中间 9 个 间隔 的 向 量 
> rep(1,30) # 生 成 重复 1 数值 30 次 的 向 量 
> rep(c(1,2),3) # 生 成 重复 向 量 (1,2) 数 值 3 次 的 向 量 


LL] 327-2 12 
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Z"rnorm(10,mean-0,sd-— 1) 
>rchisq(10,df=1) 


# 生 成 长 度 为 10 服从 正 态 分 布 的 向 量 
# 生成 长 度 为 10 服从 泊 松 分 布 的 向 量 





R 软件 的 向 量 的 下 标 系 统 非常 灵活 ,可 以 根据 下 标 索引 获取 需要 的 子 集 和 数值 。 





| œ 
œ 
LJ 


1:5] 
Clength G2 —5) length GO ] 
c(1,3,5)] 

x3] 

x« 一 2 | x 2] 
hich(x-— = max(x2) 

3. 矩阵 的 操作 





XA x x* x* x oW X 
[Hop op i i EA 


VVVVVVVV 


z 








H 向 量 的 第 二 个 数值 

# 除了 第 二 个 数值 的 子 集 

# 向 量 的 前 5 个 数值 

# 向 量 的 后 5 个 数值 

# 向 量 的 第 1,3 和 5 个 数值 

# 向 量 中 数值 大 于 3 的 子 集 

# 向 量 中 小 于 一 2 或 大 于 2 的 子 集 
# 向 量 中 最 大 值得 下 标 











在 RR 中 可 以 用 函数 matrix. O 来 创建 一 个 和 矩阵， 应 用 该 函数 时 需要 输入 必要 的 参数 值 。 


> args (matrix) 





# 查看 matrix 的 参数 列表 


function (data —NA , nrow 1. ncol =l, byrow —FALSE, dimnames = NULL) 
data 项 为 必要 的 矩阵 元 素 ，nrow 为 行 数 ，ncol 为 列 数 ， 注 意 nrow 与 ncol 的 乘积 应 为 
和 矩阵 元 素 个 数 ，byrow 项 控制 排列 元 素 时 是 否 按 行进 行 ，dimnames 给 定 行 和 列 的 名 称 。 


> matrix (1: 12, nrow=3, ncol—4) 





[,1] [,2] L. 3] L, 4] 
[15] 1 4 7 10 
[2.] 2 5 8 11 
[3.] 3 6 9 12 


> t (matrix (1; 12, nrow-—3, ncol—4) ) 


[1] [. 2] D. 3] 


[1>] 1 2 3 
[2,] 4 5 6 
[35] 7 8 9 
[4,] 10 11 12 


4. 矩阵 相 加 、 相 减 、 相 乘 运算 


在 R 中 对 同行 同 列 和 矩阵 相 加 减 ， 可 用 符号 : 


# 生成 一 个 3 * 4 和 矩阵 


# ot O 求 矩 阵 的 转 置 





4p» “一 ”， 例如 : 


> A=B= matrix (1; 12, nrow=3, ncol—4) 


> A+B 

Ls Ls SEE] Lx x] 
i] 2 8 14 20 
[2] 4 10 16 22 
[3,] 6 12 18 24 
> A—B 

[,1] [,2] D. 3] [,4] 
[1,] 0 0 0 0 





H 和 矩阵 的 相 加 


H AB PE AI HE YR 





附录 
[2,] 0 0 0 0 
[3.] 0 0 0 0 
A 为 m Xn EE, c0, YER PR cA 可 用 符号 :“x”， 例 如: 
>2*A # 和 矩阵 和 数值 的 相 乘 
Le« 1] [，2] [3] [, 4] 
[1,] 2 8 14 20 
[2.] 4 10 16 22 
[3.] 6 12 18 24 


A Jy m Xn EE, B 为 nXk EE, ÆR 中 求 AB 可 用 符号 :“% x* %”， 例 如: 





> A- matrix (1: 12, nrow-—3, ncol—4) 
> B- matrix (1: 12, nrow-—4, ncol—3) 
> AW * WB # 和 矩阵 相 乘 

L» 1] L, 2] L, 3] 
[15] 70 158 246 
[2.] 80 184 288 
[3.] | 90 210 330 

5. 矩阵 对 角 元 素 运算 

> A- matrix (1; 16, nrow-—4, ncol—4) 井 生成 一 个 方 阵 矩阵 











> diagC A) H Ur Feb PE rh Bor fü RUE 

[1] 1 6 11 16 

> diag(diagCA) ) H Æ WITEK UT PEIE PE 
[1] [2] [, 3] [ 4] 

[1,] 1 0 0 0 

[2.] 0 6 0 0 

[3 ,] 0 0 | 0 

[4,] 0 0 0 16 

> diag(3) # 生 成 3 维 单位 矩阵 
Le Ii L2] [3 

[1,] 1 0 0 

[2.] 0 1 0 

[3.] 0 0 1 

6. 矩阵 求 逆 
> library( MASS) # 加载 MASS 包 
> ginvCA) H JERE A Ku 


L. 1] [. 2] [3-3] [. 4] 
[1,] —0.285 一 0.1075 0. 07 0. 2475 
[2,] —0.145 —0. 0525 0. 04 0. 1325 
[3.] —0.005 0. 0025 0. 01 0. 0175 
[4.]] 0. 135 0.0575  —0.02  —0.0975 
7. 和 矩阵 的 特征 值 与 特征 向 量 
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ABE A 的 谱 分 解 为 4 二 UAU ， 其 中 4 是 由 4 的 特征 值 组 成 的 对 角 和 矩阵 ，U 的 列 为 4 的 





特征 值 对 应 的 特征 向 量 ,在 R 中 可 以 用 函数 eigen O 函数 得 到 U 和 A。 
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> A-diag( F1 # 生 成 对 称 方 阵 
>A 
D1] [.2] D3] L4] 
[1,] 2 1 1 1 
[2,] 1 2 1 1 
[3.] 1 1 Z 1 
[4.] 1 1 1 2 
> A. eigen=eigen(A) # 求 特征 值 和 特征 向 量 
> class(A. eigen) # 求 数据 集 的 类 型 
[1] "list" 








R 的 列表 disd 是 一 个 以 对 象 的 有 序 集 合 构成 的 对 象 。 列 表 中 包含 的 对 象 又 称 为 它 的 
分 量 (components), 

分 量 可 以 是 不 同 的 模式 或 类 型 ， 如 一 个 列表 可 以 同时 包括 数值 癌 量 ， 催 辑 向 量 ， 和 矩阵 ， 
SAE, FAH., K% Si, 











> str(A. eigen) 

List of 2 

$ values: num [1:4] 5 11 1 

$ vectors:;num [1:4.1:4] —0.5 一 0.5 —0.5 —0.5 0. 866... 





R 的 列表 (iso 中 可 以 同 str O 函数 查看 列表 中 包含 的 分 量 ， 可 以 通过 list$ 分 量 名 
称 获 取 到 该 分 量 的 数据 ， 这 里 $ values 表示 特征 值 ，$ vectors 表示 特征 向 量 。 





> A. eigen 
$ values 


A mL a 


$ vectors 
L-1] [.2] [.3] [.4] 
Lis] 9:5 0. 8660254 0. 0000000 0. 0000000 
[2.] 一 0.5 一 0.2886751 一 0.5773503 —0. 5773503 
[3.] 一 0.5 一 0.2886751 一 0.2113249 0.7886751 
[4.] 一 0.5 一 0.2886751 0.7886751  —0. 2113249 
由 A 4 HIE] UAU' , Wu] LGB EREAE (RCRURE AE T] 5 n] VA EAR AE A : 
> A. eigen $ vectors% * %diag(A. eigen $ values) % * V6tCA. eigen $ vectors) 
D1] [,2] D3] L4] 





[14] 2 1 1 1 
al — 1d 2 1 1 
[3;] d 1 2 1 
[4,] 1 1 1 2 


8. 和 矩阵 数据 的 奇异 值 分 解 


A Jy m Xn E, rank (A) =r, WISN: A—UDV', KGU'U—V'V—I, TER m 


可 以 用 函数 svd O 进行 奇异 值 分 解 ， 





> A-matrix(1:12.3.4) 
> svdCA) 
$d 
[1] 2. 546241e4-01 1. 290662e 十 00 1. 
$u 

L-1] [.2] 
[1,] —0. 5045331 —0. 76077568 
[2.] —0.5745157  —0.05714052 
[3,] —0. 6444983 0. 64649464 
$v 

L-1] [.2] 
[1.] —0. 1408767 0. 82471435 
[2,] —0. 3439463 0. 42626394 
[3,] —0. 5470159 0. 02781353 
[4.] 一 0.7500855 —0. 37063688 
> A. svd=svd(A) 


例如 : 


# 生 成 矩阵 
# 求 矩阵 SVD 分 解 


716561e—15 


L3] 
0. 4082483 
一 0. 8164966 
0. 4082483 


[,3] 

一 0. 4991558 
0. 4974744 
0. 5025186 

一 0. 5008372 


> A.svd $ u% * %diag(A. svd $ D 96 * 96tCA. svd $ v) 


Di] [,2] [3] D.4] 

Li] 1 4 7 10 

[2,] 2 5 8 1l 

[35] 3 6 9 12 
9. 矩阵 数据 的 合并 





附 录 | 














# SVD 分 解 结果 赋值 到 对 象 
H EIERE A 
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R 中 有 和 矩阵 计算 和 处 理 的 工具 ， 函 数 rbind © 和 cbind O 分 别 用 上 下 或 左右 的 方式 合 





并 向 量 或 矩阵 : 
> A-— matrix(l ,nr=2,nc=2) 
> B«— matrix(2,nr—2,nc—2) 
> rbindC A. B) 


[L.1] L.2] 
[14] d 1 
D] 3 I 
[3.] 2 2 
[4;] 2 2 


> cbind(A,B) 
[,1] [,2] [L,3] L.4] 
[1,] 1 1 2 2 
[2.] 1 1 2 2 
10. 矩阵 广义 道 (Moore-Penrose) 


# 生成 矩阵 A 
# 生成 矩阵 B 





# 通 过 行 合 并 和 矩 了 泗 A M B 


# 通 过 列 合并 和 矩阵 4 MB 














nm 矩阵 A 十 称 为 m X n EEA 的 Moore-Penrose 逆 ， 如 果 它 满足 下 列 条 件 : D A 
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A 二 A= 二 A; ÕA+A A+=A+; 9 AA+) H—A A 十 ; @ (ATA) H—A- A, ERÉ 
MASS B BS PAZ ginv O 可 计算 和 矩阵 A 的 Moore-Penrose 35. 例如: library C MASS" ) 
>A 

[. 1] L, 2] L. 3] L, 4] 








[ 1 5 9 13 
[25.] 2 6 10 14 
[35] 3 7 和 15 
[4.] 4 8 12 16 
> ginvCA) 

[. 1] [. 2] [. 3] [. 4] 
[1,] —0.285 一 0.1075 0. 07 0. 2475 
[2.] —0.145 —0. 0525 0. 04 0. 1325 
[3.] —0.005 0. 0025 0. 01 0. 0175 
[4.] 0. 135 0.0575 一 0.02  — 0.0975 
验证 性 质 1: 
> A% * %ginv CA) 5 * V6 A 

L. 1] [. 2] [, 3] [, 4] 
[1.] 1 5 9 13 
[2.] 2 6 10 14 
[3.] 3 7 11 15 
[4.] 4 8 12 16 
验证 性 质 2: 
> ginv CA) 6 * VA% * %ginv(A) 

[. 1] Ls 2] [. 3] [. 4] 
[1,] —0.285 一 0.1075 0. 07 0. 2475 
[2.] —0.145 一 0.0525 0. 04 0. 1325 
[3.] —0. 005 0. 0025 0. 01 0. 0175 
[4.] 0. 135 0.0575 一 0.02  —0.0975 
验证 性 质 3: 





> t(A% * PóginvCA) ) 
[1] P. 2] C, 3] L. 4] 


[1.] 0.7 0.4 0.1  —0.2 
[2.] 0.4 0.3 0. 2 0.1 
[3.] 0.1 0.2 0. 3 0.4 
[4.] —0.2 0.1 0. 4 0. 7 
> A% * V ginvCA) 

L. 1] C, 2] L. 3] L, 4] 
lia] 0.7 0.4 0.1 一 0.2 
[2.] 0.4 0.3 0. 2 0.1 
EA 0.1 0.2 0. 3 0. 4 
[4,] —0.2 0.1 0.4 0. 7 


验证 性 质 4: 
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> t(ginvCA) 94 * 95 A) 


L1] ES 21 [, 3] L, 4] 
EPA 0.7 0.4 0.1 一 0.2 
[2,] 0.4 0.3 0. 2 0.1 
[3.] 0.1 0.2 0. 3 0. 4 
[4,] —0.2 0.1 0.4 0. 7 


> ginv CA) 4 * 96A 
[1] D.2] D. 3] L, 4] 


[1.] 0.7 0.4 0.1 | —0.2 
[25] 0.4 0.3 0. 2 0.1 
[3.] 0.1 0.2 0. 3 0.4 
[4,] —0.2 0.1 0.4 0. 7 


11. 循环 和 条 件 操作 

R 语言 的 条 件 语句 形式 为 
> if (exprl) expr2 else expr3 

其 中 exprl 是 控制 条 件 并 且 产生 一 个 唯一 的 逻辑 值 ， 逻 辑 值 为 真 执行 expr2 语句 ， 假 则 
执行 expr2 语句 。 











> i{(1 <2) A=1 else A—2 £ 条件 控制 语句 
>A 
[1] 1 








R 提供 了 if/else 条 件 语句 向 量 形式 的 函数 ifelse。 它 的 使 用 方式 是 ifelse (condition. a, 
b)， 最 终 返 回 一 个 和 最 长 的 参数 向 量 同 长 的 向 量 。condition [i] 为 真 时 ， 该 向 量 对 应 的 元 素 
是 a lil, BWX b li]. 
> ifelse(cC TRUE.FALSE) ,c(1,2) ,c(3,4)) # 条件 控制 语句 的 函数 形式 
[1]14 

R 语言 有 下 面 形 式 的 for 循环 架构 
> for (name in expr 1 ) expr 2 

其 中 name 是 循环 变量 ，exprl 是 一 个 向 量 表 达 式 (常常 以 1 : 20 这 种 形式 出 现 )， 而 
expr2 常常 是 根据 虚拟 变量 name 而 设计 的 成 组 表达 式 。 在 name 访问 exprl 所 有 可 以 取 到 的 
值 时 ，expr2 都 会 运行 。 下 面 通过 循环 计算 1 十 2 十 3 十 … 十 98 十 99 十 10 的 例子 : 
> sum—0 
> for(i in 1:100) sum sum-t i 
> sum 
[1] 5050 

12. 编写 自己 的 函数 

R 语言 允许 用 户 创建 模式 为 function 的 对 象 ， 这 些 被 创建 的 对 象 是 真正 的 R 函数 ， 以 
特定 的 内 在 形式 存储 ， 可 以 在 其 他 表达 式 中 使 用 ， 等 等 。 通 过 创建 函数 ，R 语言 在 能 力 ， 易 
用 性 和 易 读 性 上 都 获得 了 极 大 的 提高 。 







































































> std(x) # 求 标准 方差 (没有 该 函数 ) 
错误 :没有 "std" 这 个 函数 
> sqrt( sum( (x 一 mean(x))72 /(length(x)—1))) # 求 标准 方差 


[1] 2. 406011 
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> std—function(x) sqrt( sum( (x 一 mean(x))^2 /(lengthCx) 一 1))) £oK ife 7; 28 








> std(x) # 调 用 自己 编写 求 标准 方差 水 数 
[1] 2. 406011 
> sd(x) # 调 用 内 部 求 标准 方差 函数 


[1] 2. 406011 

通过 编写 自己 的 函数 std， 可 以 保存 在 脚本 文件 中 ,方便 以 后 使 用 时 调用 ,代码 中 尽 可 
能 多 地 引用 函数 ， 可 使 代码 简洁 ,减少 代码 量 ,， 这 是 R 软件 里 模块 化 的 一 个 重要 变现 。 

R 语言 实际 上 是 孔 数 的 集合 ， 用 户 可 以 使 用 base. stats 等 包 中 的 基本 函数 ， 也 可 以 自 
己 编 写 函 数 完成 一 定 的 功能 。 但 是 初学 者 往往 认为 编写 R 函数 十 分 困难 ,或 者 难以 理解 。 
这 里 对 如 何 编写 R 函数 进行 简要 的 介绍 。 

函数 是 对 一 些 程序 语句 的 封装 。 换 句 话 说， 编写 丽 数 ， 可 以 减少 人 们 对 重复 代码 书写 ， 
从 而 让 R 脚本 程序 更 为 简洁 ， 高 效 。 同 时 也 增加 了 可 读 性 。 一 个 函数 往往 完成 一 项 特定 的 
功能 。 例 如 ， 求 标准 差 sd， 求 平均 值 ， 求 生物 多 样 性 指数 ， 等 。R 数据 分 析 ， 就 是 依靠 调 
用 各 种 函数 来 完成 的 。 但 是 编写 函数 也 不 是 轻而易举 就 能 完成 的 ， 需 要 首先 经 过 大 量 的 编程 
训练 。 特 别 是 对 R 中 数据 的 类 型 ， 逻 辑 判 别 、 下 标 、 循 环 等 内 容 有 一 定 了 解 之 后 ， 才 好 开 
始 编写 函数 。 对 于 初学 者 来 说 ， 最 好 的 方法 就 是 研究 现 有 的 R 函数 。 因 为 R 程序 包 都 是 开 
源 的 ， 所 有 代码 可 见 。 研 究 现 有 的 R 函数 能 够 使 编程 水 平 迅 速 提高 。 

R 函数 无 需 首 先 声 明 变 量 的 类 型 ， 大 部 分 情况 下 不 需要 进行 初始 化 。 一 个 完整 的 及 郴 
数 ， 需 要 包括 函数 名 称 、 函 数 声明 、 函 数 参数 以 及 函数 体 几 部 分 。 

(1) 函数 名 称 ， 即 要 编写 的 郴 数 名 称 ， 这 一 名 称 就 作为 将 来 调用 下 函数 的 依据 。 

(2) 函数 声明 包括 过 一 function， 即 声明 该 对 象 的 类 型 为 函数 。 

(3) 函数 参数 ”这 里 是 输入 的 数据 ， 函 数 参 数 是 一 个 虚拟 出 来 的 一 个 对 象 。 函 数 参 数 所 
等 于 的 数据 ， 就 是 在 函数 体内 部 将 要 处 理 的 值 ， 或 者 对 应 的 数据 类 型 。 函 数 体内 部 的 程序 语句 
进行 数据 人 处理， 就 是 对 参数 的 值 进 行 处 理 ， 这 种 处 理 只 在 调用 函数 的 时 候 才 会 发 生 。 邱 数 的 参数 
可 以 有 多 种 类 型 。R help 的 界面 对 每 个 函数 和 其 参数 的 意义 及 所 需 的 数据 类 型 都 进行 了 说 明 。 

(D 函数 体 ”常常 包括 三 部 分 。 

异常 处 理 。 输 入 的 数据 不 能 满足 函数 计算 的 要 求 ， 或 者 类 型 不 符 ， 这 时 候 一 定 要 设 
计 相 应 的 机 制 告 诉 用 户 ， 输 入 的 数据 在 什么 地 方 有 错误 。 错 误 又 分 为 两 种 。 第 一 种 ， 如 果 输 
入 的 数据 错误 不 是 很 严重 ， 可 以 经 过 转换 ， 变 为 符合 处 理 要 求 的 数据 时 ， 此 时 只 需要 给 用 户 
一 个 提醒 ， 告 知 数据 类 型 不 符 ， 但 是 函数 本 身 已 经 进行 了 相应 的 转换 。 第 二 种 ， 数 据 完全 不 
符合 要 求 ， 这 种 情况 下 ， 就 要 终止 函数 的 运行 ， 而 告知 因为 什么 ， 函 数 不 能 运行 。 这 样 H 
户 在 使 用 函数 时 才 不 至 于 茫然 。 

© 运算 过 程 。 包 括 具 体 的 运算 步 又 。 运 算 过 程 和 该 函数 要 完成 的 功能 有 关 。 

R 运 算 过 程 中 ,应 该 尽量 减少 循环 的 使 用 ， 特 别 是 对 套 循环 。R 提供 了 apply. 
replicate 等 一 系列 函数 来 代替 循环 ， 应 该 尽量 应 用 这 些 函 数 ， 提 高 效率 。 如 果 在 R 中 实在 太 
慢 ， 那 么 核心 部 分 只 能 依靠 C 或 者 Fortran 等 语言 编写 ， 然 后 再 用 R 调用 这 些 编 译 好 的 模 
块 ， 达 到 更 高 的 效率 。 运 算 过 程 中 ， 需 要 大 量 用 到 if 等 条 件 作为 判别 的 标准 。if 和 while 都 
是 需要 数据 TRUE/FALSE 这 样 的 逻辑 类 型 变量 ， 这 就 意味 着 ，if 内 部 往往 是 对 条 件 的 判 
别 ， 例 如 is. na，is. matrix. is. numeric. SE AE. 或 者 对 大 小 的 比较 ， UH df (x29 00). if 
(x==1), if (length(x) 二 二 3)， 等 等 。if 后 面 ， 如 果 是 1 行 ， 则 花 插 号 可 以 省 略 ， 否则 就 
必须 要 将 所 有 的 语句 都 放 在 花 括号 中 。 这 和 循环 是 一 致 的 。 




















































































































































































































[ 例 1] 


# # 计 与 条 件 判断 


fun. test <— function(a,b, method= "add"){ 


] 


if(method= — "add") ( & # 如 果 计 或 者 for/ while; 
res «— a c b € € 等 后 面 的 语句 只 有 一 行 , 则 无 需 使 用 花 括 号 。 


if(method=="subtract"){ 
res <— a — b 

j 

return(res) # # 返回 值 





H Hp 检验 结果 
fun. test(a=10,b=8,method= "add") 
fun. test(a=10,b=8,method= "substract") 
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for 循环 有 些 时 候 是 必须 要 用 到 的 ，for 循环 内 部 ， 往 往 需要 用 下 标 ， 访 问 数据 内 的 一 定 元 
素 ， 例 如 向 量 内 的 元 素 ， 这 时 候 用 方 括号 表示 。 一 维 的 数据 组 合 ， 或 者 数组 ， 常 常 称 为 向 


A 


里 








Fil 








。 二 维 的 数据 组 合 ， 往 往 称 为 矩阵 ， 或 者 数据 框 。 有 具体 的 访问 方式 主要 是 方 括号 内 部 有 没有 过 


号 的 区 别 。for 循环 或 者 while 循环 有 时 候 让 人 觉得 比较 困惑 ， 可 能 需要 专门 的 时 间 进 行 讲解 。 


[ 例 2] 


HHH for 循环 与 算法 


test. sum 所 一 function(x) 


( 


res « — 0 # & s 设置 初始 值 ,在 第 一 次 循环 的 时 候 使 用 
for(iin 1:length(x)){ 
res <— res + xli] & # 这 部 分 是 算法 的 核心 ， 























H # 总 是 从 右面 开始 计算 ,结果 存 到 左边 的 对 象 


} 


return(res) 


eon om 检验 函数 
a E cC1.2,1,6,1,8.,9,8) 


test. sum(a) 


sum(a) 








无 论 是 什么 样 的 函数 ， 算 法 才 是 最 关键 的 。 往 往 需 要 巧妙 地 设计 算法 ,让 
© 返回 值 。 返 回 值 就 是 函数 给 出 的 结果 。 打 个 比方 ， 编 写 一 个 函数 ， 

















SL BOSE) 





Wide. AURERE REKI, YAGORCBLEGK BACK SE. 输入 的 大 豆 就 是 参数 , 返回 的 结 























果 就 是 豆浆 。 如 果 该 豆浆 机 需要 不 停 地 输入 大 豆 , 而 不 能 F 














出 豆浆 ， 这 样 的 机 器 就 一 定 会 被 


扔 掉 。 函 数 也 是 一 样 的 ,需要 给 出 返回 值 。R 中 默认 的 情况 是 将 最 后 一 句 作为 返回 值 。 但 是 
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为 了 了 艺 数 的 可 读 性 起 见 ， 应 该 尽量 指明 返回 值 。 返 回 值 用 return O Až ho KAE N w 
处 理 过 程 中 ,一 旦 遇 到 return ()， 就 会 终止 运行 , 将 return O 内 的 数据 作为 函数 处 理 的 结 
下 面 举例 说 明 R 函数 的 编写 方法 。 

















[ 例 3] 计算 标准 差 
sd2 <— function(x) 
( 
# 异常 处 理 , 当 输 入 的 数据 不 是 数值 类 型 时 报错 
if(! is. numeric(x)){ 
stop("the input data must be numeric! Nn") 
} 
# 异常 处 理 , 当 仅 输 入 一 个 数据 的 时 候 , 告 知 不 能 计算 标准 差 
if(length(x)==1)( 
stop("can not compute sd for one number. 
a numeric vector required. Xn") 
} 
# # 初始 化 一 个 临时 向 量 ,保存 循 环 的 结果 ， 
# # 求 每 个 值 与 平均 值 的 平方 
x2 «— cO 
# # 求 该 向 量 的 平均 值 
meanx <— mean(x) 
# # 循环 
forG in 1:length(x)){ 
xn <— xli] 一 meanx 


x2[i] <— xn’2 





HH 求 总 平方 和 
sum2 所 一 SumCx2) 
# 计算 标准 差 
sd <— sqrt(sum2/(length(x)—1)) 
# 返回 值 
return(sd) 
) 
# H 程序 的 检验 
HH 正常 的 情况 
sd2(c(2,6,4,9,12)) 
# # 一 个 数值 的 情况 
sd2(3) 
# # 输入 数据 不 为 数值 类 型 时 
sd2CcC"1","2")) 
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这 样 ， 一 个 完整 的 函数 就 编写 完成 了 。 当 然 ， KRF, KAENA., up 
上 百 行 。 但 是 好 的 编程 人 员 往 往 将 复杂 的 函数 编写 成 小 的 函数 ， 以 便于 程序 的 修改 和 维护 ， 
即使 其 中 出 现 错误 ， 也 很 好 修改 。 再 有 就 是 编写 R 函数 时 一 定 要 注意 缩 进 ， 编 辑 器 用 
Notepad 十 十 ，TinnR，Rstudio， 等 ， 同 时 用 等 距 字 体 (如 Consolas. Courier new， 等 ) 和 
语法 高 亮 显 示 。 这 样 便于 快速 寻找 到 其 中 的 错误 。 


七 、R 语言 中 的 常用 函数 


(一 ) 数据 结构 

1. 数据 管理 

vector; 问 量 ; numeric: 数值 型 向 量 ; logical: 逻辑 型 向 量 ; character; 字符 型 向 量 ; 
list; 列表 ; data. frame: 数据 框 ; c. 连接 为 向 量 或 列表 ; length: 求 长 度 ; subset: 求 子 
集 ; seq. from: to. sequence: 等 差 序 列 ; rep: 重复 ; NA; 缺失 值 NULL: 空 对 象 ; 
sort, order, unique, rev: 排序 ; unlist: 展 平 列表 ; attr, attributes: 对 象 属性 ; mode. 
typeof: 对 象 存储 模式 与 类 型 ，names: 对 象 的 名 字 属 性 。 

2. 字符 串 处 理 

character; 字符 型 向 量 ; nchar: 字符 数 ; substr: 取 子 串 ; format. format C. 把 对 象 
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用 格式 转换 为 字符 串 ; paste, strsplit: 连接 或 拆 分 ; charmatch，pmatch: 字符 串 匹 配 ; 
grep, sub, gsub: 模式 匹配 与 蔡 换 。 

3. 复数 

complex, Re, Im, Mod, Arg, Conj: 复数 函数 。 

4. 因子 

factor: 因子 ; codes: 因子 的 编码 ; levels: 因子 的 各 水 平 的 名 字 ; nlevels: 因子 的 水 
平 个 数 ; cut: 把 数值 型 对 象 分 区 间 转 换 为 因子 ; table: 交叉 频数 表 ; split: 按 因 子 分 组 ; 
aggregate: 计算 各 数据 子 集 的 概括 统计 量 ; tapply: 对 “不 规则 ”数组 应 用 函数 。 

CO 数学 相关 计算 

1. 计算 

十 ， 一 ， 关 ，/，“,%%,%/%: 四 则 运算 ; ceiling, floor, round, signif, trunc, 
zapsmall: A; max. min. pmax, pmin: 最 大 最 小 值 ; range: 最 大 值 和 最 小 值 ; sum. 
prod; 向 量 元 素 和 积 ; cumsum, cumprod, cummax, cummin: RIMM, R; sort: HEF; 
approx 和 approx fun: #18; diff: 差分 ; sign: 符号 函数 。 

2. 数学 函数 

abs. sqrt; 绝对 值 ， 平 方 根 。 

log, exp, logl0, log2: 对 数 与 指数 函数 。 

sin，cos，tan，asin，acos，atan，atan2: 三 角 函 数 。 

sinh, cosh, tanh, asinh, acosh, atanh: 双 曲 函数 。 

beta, lbeta, gamma, lgamma, digamma, trigamma, tetragamma, pentagamma, 
choose, lchoose: 5 N AKZ DILE K% ZR RU K ARER A. 

fft, mvfft, convolve: 傅 里 叶 变换 及 卷 积 。 

polyroot: 多 项 式 求 根 。 

poly: 正 交 多 项 式 。 

spline，splinefun: 样 条 差 值 。 

bessell, besselK, besselJ, besselY. gammaCody: Bessel PEZ, 
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deriv: 简单 表达 式 的 符号 微分 或 算法 微分 。 

3. 数组 

array: 建立 数组 ; matrix: 生成 矩阵 ;data. matrix: 把 数据 框 转换 为 数值 型 矩阵 low- 
er. tri: 矩阵 的 下 三 角 部 分 ; mat. or. vec: 生成 矩阵 或 向 量 ; t: ABESSE cbind: 把 列 合 并 
HIE; rbind: 把 行 合并 为 矩阵 ;diag: EEX fA JCR H ERER AERE; aperm: 数组 
转 置 ，nrow，ncol: 计算 数组 的 行 数 和 列 数 ，dim: 对 象 的 维 向 量 ，dimnames: 对 象 的 维 
名 ; row/colnames: 行 名 或 列 名 ;% * %: EERE; crossprod: 和 矩阵 交叉 乘积 〈 内 积 ); 
outer: 数组 外 积 ; kronecker: 数组 的 Kronecker fH; apply: 5 Z& 2H Ay se fe y JH beg ZA s 
tapply: 对 “不 规则 ”数组 应 用 函数 ; sweep: 计算 数组 的 概括 统计 量 ; aggregate: 计算 数 
据 子 集 的 概括 统计 量 ; scale: 矩阵 标准 化 ;matplot: 对 和 矩阵 各 列 绘图 ; cor: 相关 阵 或 协 差 
VE; Contrast; 对 照 矩 阵 ; row: ERIT FERR; col: 求 列 下 标 集 。 

4. 线性 代数 

solve: 解 线 性 方程 组 或 求 逆 ; eigen: 矩阵 的 特征 值 分 解 ; svd: 矩阵 的 奇异 值 分 解 ; 
backsolve: 解 上 三 角 或 下 三 角 方 程 组 ; chol: Choleski 分 解 ; qr: 和 矩阵 的 QR 分 解 ; 
chol2inv: 由 Choleski SERI, 

5. 逻辑 运算 

Ze Dp ZS D ,! 一 : 比较 运算 符 ;1，&，&&，| ， ，xor O: 35 
运算 符 ; logical: 生成 逻辑 向 量 ; all, any: 逻辑 向 量 都 为 真 或 存在 真 ; ifelse O: 二 者 择 
一 ; match, in% : 查找 ; unique: 找 出 互 不 相同 的 元 素 ; which: 找到 真 值 下 标 集合 ; du- 
plicated: 找到 重复 元 素 。 

6. 优化 及 求 根 

optimize, uniroot. polyroot; 一 维 优 化 与 求 根 。 

(=) 程序 设计 

1. 控制 结构 

if. else. ifelse, switch; 分 支 。 

for, while, repeat. break, next: 循环 。 

apply. lapply. sapply. tapply. sweep: 替代 循环 的 函数 。 

2. 函数 方面 

function; PEAZk E X. 

source; 调用 文件 。 

call: 函数 调用 。 

.C, . Fortran: 调用 C 或 者 Fortran 子 程序 的 动态 链接 库 。 

Recall: 递归 调用 。 

browser，debug，trace，traceback: 程序 调试 。 

options: 指定 系统 参数 。 

missing: 判断 虚 参 是 否 有 对 应 实 参 。 

nargs: 参数 个 数 。 

stop: 终止 函数 执行 。 

on. exit: 指定 退出 时 执行 。 

eval, expression; 表达 式 计算 ， 

system. time; 表达 式 计算 计时 。 

invisible: 使 变量 不 显示 。 
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menu: 选择 菜单 (字符 列表 菜单 )。 
其 他 与 洱 数 有 关 的 还 有 : delay. delete. response. deparse. do. call, dput. environment. 


formals, format. info, interactive, is. finite, is. function, is. language, is. recursive, 


match. arg, match. call, match. fun, model. extract, name, parse. substitute, 


sys. parent. warning, machine, 


3. 输入 输出 

cat, print; 显示 对 象 。 

sink: 输出 转向 到 指定 文件 。 
dump，save，dput，write: 输出 对 象 。 

scan, read. table. load. dget: 读 入 。 

4. 工作 环境 

ls. objects: 显示 对 象 列表 。 

rm, remove: 删除 对 象 。 

q; quit; 退出 系统 。 

. First, . Last: 初始 运行 函数 与 退出 运行 函数 。 
options: 系统 选项 。 

?，help，help. start，apropos: 帮助 功能 。 
data; 列 出 数据 集 。 

《四 ) 统计 分 析 

1. 统计 分 布 

每 一 种 分 布 有 4 个 函数 : d 
随机 数 函 数 。 

比如 ， 正 态 分 布 的 这 4 个 图 数 为 dnorm,，pnorm，qnorm,， rnorm, 

列 出 各 分 布 后 级 ， 前 面 加 前 级 d、p、q 或 r 就 构成 函数 名 : 

norm; 正 态 ; t: t 分 布 ; f: 下 分 布 ; chisq: 卡 方 (包括 非 中 心 ) ; unif: 335]; exp: 
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指数 ; weibull: 威 布尔 ; gamma: 伽 玛 ; beta: 贝塔 ; lnorm: 对 数 正 态 ; logis: 逻辑 分 


布 ; 


项 ; 


cauchy: 柯 西 ;binom: 二 项 分 布 ; geom: 几何 分 布 ; hyper: 超 几 何 ; nbinom: 负 二 
pois: 泊 松 ; signrank: 符号 秩 ; wilcox: 秩 和 ; tukey: 学 生化 极 差 。 

2. 简单 统计 量 

sum, mean, var. sd, min, max, range. median. IQR (四 分 位 间距 ) 等 为 统计 量 。 
sort. order. rank 与 排序 有 关 ， 其 他 还 有 ave, fivenum, mad, quantile, stem 等 。 
3. 统计 检验 

R 中 已 实现 的 有 chisq. test. prop. test. t. test, 

4. 多 元 分 析 

cor. cov. wt, var: 协 方差 阵 及 相关 阵 计算 。 

biplot, biplot. princomp: 多 元 数据 biplot 网 , 

cancor; 典 则 相关 。 

princomp: 主 成 分 分 析 。 

hclust: 谱系 聚 类 。 

kmeans: K 一 均值 聚 类 ， 

cmdscale: 经 由 多 维 标 度 ”其 他 有 dist，mahalanobis，cov. rob, 
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5. 时 间 序 列 

ts. 时 间 序 列 对 象 。 

diff; 计算 差分 。 

time; 时 间 序 列 的 采样 时 间 。 

window: 时 间 窗 。 

6. 统计 模型 

lm, glm, aov; 线性 模型 、 广 义 线性 模型 、 方 差分 析 。 


八 、R 语言 的 基础 画图 


(一 ) plot H&A CBS -1) 
plot (x. y. xlim=c (0, 100), ylim—c (0.4, 1), 





R 











type=" o", lwd=2, col=2, pch=24, cex=1.5, yaxs=" i", xaxs=" i", 


xlab=" Sample Ration (%) ", ylab=" Accuracy" ) 


1.0 





0.8- 


0.7r- 


Accuracy 


0.6F 


0.5- 








ii ji ji ii 
dii 20 40 60 80 100 


Sample Ration/?o 


ENED piot 函数 














说 明 : x. y 表示 要 画图 的 过 轴 内 容 和 >y 轴 内 容 ; 

xlim, ylim 表示 x 轴 和 yy 轴 的 范围 ; 

type 表示 图 的 形状 ， 是 点 、 线 、 点 线 、 阶 梯 线 等 等 ; 

lwd 表示 线 的 宽度 ; 

col 表示 颜色 ; 

pch 表示 点 的 形状 ; 

cex 表示 点 的 大 小 ; 

yaxs, xaxa 表示 plot 默认 画图 时 会 在 预 留 一 部 分 坐标 空间 ， 设 置 为 “i 后 ， 就 可 以 去 
掉 预 留 空间 ; 

xlab, ylab 表示 xz 轴 和 yy 轴 的 名 称 。 

CL) lines HA (K III -2 

当 想 要 在 一 个 图 中 画 多 条 线 时 ， 可 以 用 此 函数 

lines (LPP $ LPP—LPP $ x. col—" blue". type=" o", lwd=2, pch=5) 
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0.9- 


0.8F 


0.77 


Accuracy 
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Sample Ration/?o 


line 函数 





RI 





《三 ) grid 对 图 添加 栅 格 〈 图 下 -3) 
grid (nx= NA, ny-—6, lwd=2) 

















1.0 





0.9 


0.8 


Accuracy 
S 
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0.6 


0.5 














045 20 40 60 80 100 


Sample Ration/% 


EBE grid 对 图 添加 栅 格 





nx. ny 分 别 表示 x My 方向 的 虚线 ， 当 值 为 NA 时 ,不 对 相应 的 方向 分 割 ，ny 二 6 表 
Ry 轴 等 距 分 割 为 6 段 。 
CEU) abline (B9 Il-4) 
添加 一 条 直线 
abline (h=0. 85, col=" black", lty=1, lwd=2) 
h 表示 y 轴 方 向 的 高 度 
v 表示 x 轴 的 位 置 
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qk 























2 
S 
3 
3 
< 
WA 20 40 60 80 100 
Sample Ration/% 
abline 
Ch) legend (K Il-5) 














添加 图 例 

legend( "bottomright",legend— cC "AC 正确 率 ","MI 归 一 化 互信 息 ") «col — cC" blue", " 
red"),pch 一 c(5,24) ,]ty— 1) 

“bottomright” 表 示 图 例 的 位 置 

legend 表示 内 容 

lty 表示 线 的 类 型 
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Sample Ration/% 


legend 























1. las 参数 
坐标 刻度 标签 的 方向 。0 表示 总 是 平行 于 坐标 轴 ，1 表示 总 是 水 平 ，2 表示 总 是 垂直 于 坐标 轴 。 
las 一 1。 可 以 在 plot，axis 等 函数 中 使 用 。 
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2. yaxt，xaxt 参数 

是 否 显示 相应 坐标 轴 的 标 度 。yaxt=" n" 表示 不 显示 y 轴 的 刻度 。 

3. axis 函数 

axis Cside—2, at—c (1. 2, 3. 4. 5. 6), labels—c (1, 2, 3. 4. 5, 6), las— 1D, 
side 表示 对 x 轴 还 是 y 轴 设 置 刻度 。side 二 1 KIR XÍ c 轴 ，2 表示 对 y 轴 。 

at 表示 在 坐标 轴 的 什么 位 置 。 

labels 表示 在 对 应 的 位 置 标 什么， 可 以 是 值 也 可 以 是 说 明 。 

图 形 输 出 (pdf\ Win \ PBG \ JPEG \ BMP V PostScript) (Il II-6, E Il-7) 

用 代码 保存 图 形 ， 将 绘图 语句 加 在 开启 目标 图 形 设备 的 语句 和 关闭 目标 图 形 设备 的 语句 









































之 间 即 可 。 

1. <span style= "font— size:18px; "> # pdf( "mygraph. pdf") # pdf 文件 

2. win. metafile( "filename. wmf") £ windows 图 形 文 件 
3. € png("filename. png") # PBG 文件 

4. #jpeg("filename. jpg") # JPEG 文件 

5. € bmp( "filename. bmp") # BMP 文件 

6. # postscript. "filename. ps") £ PostScript 文件 

7. attach(mtcars) 

8. plotCwt. mpg) 

9. abline(Im (mpg~ wt?) 


10. titleC "Regression of MPG on Weight") 
11. detach(mtcars) 

12. dev. offO 

13. </span> 


Regression of MPG on Weight 





mpg 














EE 图 形 输出 (一 ) 
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1. <span style= "font— size:18px; "—plot(cars $ dist—cars $ speed. # y—x.cars 是 R 自 带 的 数据 
2. main "Relationship between car distance & speed", # 标题 

3. xlab= "Speed(miles per hour)", Zo 轴 标 题 

4. ylab= "Distance travelled (miles)", HY 轴 标 题 

5. xlim=c(0,30), HEE x 轴 的 取 值 区 间 为 0 到 30 

6. ylim=c(0,140), HRE y 轴 的 取 值 区 间 为 0 到 140 

7. xaxs— "i", # 这 里 是 设置 x 轴 的 风格 ,暂时 没 看 明白 有 多 大 区 别 

8. yaxs— "i", 

9. col— "red", # 设 置 颜色 

10. pch 一 19 £ pch 指 代 点 的 形状 ,用 数字 表示 ,可 查看 帮助 文档 

11. # 如 果 要 保存 图 片 怎 么 办 呢 ? 我 觉得 最 简单 的 方法 就 是 使 用 RStudio 这 个 IDE, 极 其 得 





好 ,可 惜 很 多 人 都 不 知道 。 
# 如 果 你 不 会 ,可 以 用 如 下 代码 实现 :# (图形 的 参数 还 有 很 多 个 ,我 这 里 只 使 用 了 其 中 的 几 个 ) 
12. png(Cfilename 一 " 散 点 图 . png",width 一 480,height 一 480) 














13. plotCcars $ dist cars $ speed, Bycr 

14. main "Relationship between car distance & speed", # 标题 
15. xlab= "Speed(miles per hour)", za 轴 标 题 

16. ylab= "Distance travelled (miles)"， HY 轴 标 题 

17. xlim 一 c(0,30) ， HRE x 轴 的 取 值 区 间 为 0 到 30 

18. ylim=c(0,140), HRE y 轴 的 取 值 区 间 为 0 到 140 

19. xaxs= "i", # 这 里 是 设置 x 轴 的 风格 ,暂时 没 看 明白 有 多 大 区 别 
20. yaxs= "i", 

21. col— "red", 

22. pch—19 # pch 指 代 点 的 形状 ,用 数字 表示 ,可 查看 帮助 文档 





23. dev. offO 
24. </span> 


Relationship between car distance & speed 
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Speed(miles per hour) 


图 形 输出 (二 ) 
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如 果 你 还 有 男 一 组 数据 ， 需 要 在 上 面 这 幅 图 里 绘制 ， 也 就 是 在 同一 幅 图 里 面 绘制 两 组 数据 的 

散 点 图 ， 可 以 像 下 面 这 样 用 point R% : 

1. <span style= "font— size: 18px; ">œ png (filename = "HOA . png". width — 480, height = 
480) 














2. plot(cars $ dist~cars $ speed) #y~x 

3. main= "Relationship between car distance & speed", # 标题 

4. xlab= "Speed(miles per hour)", Hx 轴 标 题 

5. ylab— "Distance travelled (miles)"， HY 轴 标 题 

6. xlim=c(0,30), # 设 置 x 轴 的 取 值 区 间 为 0 到 30 

7. ylim—c(0,140), HRE y 轴 的 取 值 区 间 为 0 到 140 

8. xaxs— "i", # 这 里 是 设置 x 轴 的 风格 ,暂时 没 看 明白 有 多 大 区 别 
9. yaxs= "i", 

10. col— "red", 

11. pch= 3) & peh 指 代 点 的 形状 ,用 数字 表示 ,可 查看 帮助 文档 





12. pointsCcars $ speed~cars$ dist, pch=19) 间 因 为 比较 难 弄 数据 ,就 把 原先 的 数据 因果 关 
系 颠 倒 一 下 ,pch 设置 与 前 面 不 同 以 区 分 
13. dev. off </span> 
三 维 散 点 图 (图 焉 -8、 图 焉 -9) 
可 以 用 scatterplot3d 中 的 scatterplot3d () 函数 来 绘制 它们 的 关系 。 
l. <span style= "font— size:18px; ">library(scatterplot3d) 











2. attach(mtcars) 
3. scatterplot3d(wt, disp, mpg. pch — 16. highlight. 3d — TRUE.type- "h", main = "Basic 3D 
Scatter Plot") — /span> 


Basic 3D Scatter Plot 
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三 维 散 点 图 (一 ) 


第 一 步 ， 选 出 需要 的 变量 ， 并 计算 它们 的 相关 系数 的 绝对 值 。 
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第 二 步 ， 使 用 dmat. color O 获取 绘图 颜色 。 给 定 一 个 对 称 和 矩阵 ，dmat. color O 将 返 
回 一 个 颜色 和 矩阵 。 

第 三 步 ， 排 序 。 通 过 order. single O 散 点 图 和 矩 阵 将 根据 新 的 变量 顺序 (myorder) 和 
颜色 列表 (mycolor) BREE., gap 使 得 矩阵 各 单元 格 间 的 间距 稍微 增 大 一 


. <span style= "font— size:18px; "> library(gclus) 
. mydata— mtcars[c(1.3,5,6) ] 

. mydata. corr—abs(Ccor(mydata)) 

. mycolors-— dmat. color(mydata. corr) 


. myorder-— order. single( mydata. corr) 


c» Oi! & Co N rn 


. cpairs( mydata, myorder , panel. colors = mycolors.gap-.5,main- "Variables Ordered and 


Colored by Correlation") </span> 


Variables Ordered and Colored by Correlation 
100 200 300 400 10 15 20 25 30 50 





















































































CHE 三 维 散 点 图 (I) 


九 、R 中 的 化 学 计量 学 


化 学 计量 学 又 称 化 学 统计 学 ， 是 数学 、 统 计 学 、 计 算 机 科学 与 化 学 结合 而 形成 的 化 学 分 
支 学 科 。 其 主要 研究 内 容 包 括 统 计 学 与 统计 方法 、 定 性 和 定量 分 析 等 。 化 学 计量 学 和 统计 学 
息息相关 ，R 软件 作为 统计 学 软件 ， ea m 页 域 的 研究 者 也 选择 了 R 软件 作为 研究 工具 ， 
并 把 研究 成 果 总 结 成 了 扩展 包 捐 献 出 来 ， 给 所 有 R 软件 使 用 者 分 享 ， 其 中 化 学 计量 学 学 者 
的 Kurt Varmuza 和 Peter Filzmoser 开发 了 名 叫 chemometrics 的 扩展 包 和 介绍 该 包 的 书籍 
(Introduction to Multivariate Statistical Analysis in p 书 中 介绍 了 多 种 化 学 计 
量 学 中 用 的 模式 识别 ， 多 元 校正 方法 ， 交 叉 验 证 方法 。 这 章节 主要 介绍 下 扩展 包 chemomet- 


附录 


rics 里 的 一 些 函 数 和 用 法 。 






































《一 ) 回归 方法 
1. 多 元 线性 回归 
> library Cchemometrics) # 加 载 需 要 的 扩展 包 
> data(ash,package= "chemometrics") # 加 载 需 要 的 数据 集 
> reslm <— lIm(SOT~. ,data=ash) # 训练 多 元 回归 模型 
> summary(reslm) # 模 型 输出 的 概述 


Signif. codes: 





Call: 
ImCformula— SOT ~ . ,data=ash) 
Residuals: 

Min 1Q Median 3Q Max 
—253.83  —59.94  Á—4.03 37.49 438.65 
Coefficients: 

Estimate Std. Error t value Pr (>œ |t|) 

(Intercept) — 432436. 08 1770988.70 一 0.244 0.80770 
P205 4338. 78 17710. 15 0.245 0.80708 
S102 4334. 60 17709. 89 0.245 0.80726 
Fe203 4324. 86 17708. 62 0.244 0.80767 
A1203 4337. 23 17710. 02 0.245 0.80714 
CaO 4333. 91 17709. 69 0.245 0.80728 
MgO 4341. 88 17710. 08 0.245 0.80694 
Na20 4356. 81 17708. 50 0.246 0.80627 
K20 4324. 95 17709. 85 0.244 0.80768 
log(P205) ^ — ]1. 35 37.09  —0.306 0.76044 
log(SiO2) ^ — 21. 06 40.07  —0.675 0.50131 
log(Fe203) ^ 44. 51 35. 34 1.260 0.21136 
logCA1203) ` 23. 40 21. 34 1.097 0.27601 
log(CaO) ^ 57. 96 55. 39 1.046 0.29845 
log(MgO) ^ — 18. 60 70.12  —1.121 0.26562 
log(Na20) ^ 一 56. 04 20.16 —2.780 0.00674 * * 
log(K20) ^ 74. 82 36.19 2.067 0.04184 * 


0O****70.001 **x *'0.01 *7'0.05 *." 0.1*"71 


Residual standard error: 128.5 on 82 degrees of freedom 
Multiple R-squared; 0.5953, Adjusted R-squared; 0.5164 
F-statistic: 7. 54 on 16 and 82 DF, p-value: 1. 706e-10 

2. 稳健 (SER) 多 元 线性 回归 


> library(robustbase) 
> data(ash,package= "chemometrics") 
> reslmrob <—lmrob(SOT~. ,data=ash,compute. rd— TRUE) 


> summary(reslmrob) 


# 加 载 需 要 的 扩展 包 
# 加 载 数据 集 





# 训练 模型 
# 模 型 输出 的 概述 
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Robust residual standard error:86. 55 
Multiple R— squared: 0.7895, Adjusted R— squared: 0.7484 
Convergence in 28 IRWLS iterations 


标准 方差 和 R? 的 结果 和 普通 的 多 元 线性 回归 的 预测 效果 相 比 是 有 显著 性 提高 的 


















































3. 主 成 分 回归 
> library(pls) # 加 载 需 要 的 扩展 包 
> dataCyarn) # 加 载 需 要 的 数据 集 


> nir per <— pcr(density ~ NIR,ncomp=5 ,data=yarn[ yarn $ train, D # 训练 模型 
> pred. resp <— predict(nir. per; ncomp-— 1 ,newdata=yarn| ! yarn $ train, D x 模型 预测 




















2» pred. resp # 模型 预测 的 结果 输出 
P 
2 
>» 1 comps 
density 


110 32. 55606 
22 35.45174 
31 28. 88981 
41 32. 46738 
51 36. 79623 
61  28.55357 


71 33. 98975 
4. 双向 交互 检验 的 主 成 分 回归 CERE TE -10) 

>library (chemometrics) # 加 载 需 要 的 扩展 包 

>data (PAC) # 加 载 数据 集 


>pcr  dev-— mvr _ dev (y— X, ncomp-50, data—PAC, method=" svdpc" ) 井 训练 模型 








SEP 





Relative frequency for optimal number 

















L 1L L 
20 30 40 50 0 10 20 30 40 50 
Number of components Number of components 


双向 交互 检验 的 主 成 分 回归 








> per. _ plot2 所 一 plotcompmvr (per. dev) 
> per plotl-c—plotSEPmvr (pcr_ dcv, opt— pcr  plot2 $ opt. PAC $ y. 
> PAC$X,. method=" svdpc" ) 
在 双向 交互 检验 中 ， 默 认 是 做 100 次 模型 ， 每 个 模型 计算 1 到 50 的 主 成 分 数 的 预测 均 


方差 。 
5. 偏 最 小 二 乘 回 归 (图 焉 -11) 


> libraryCpls) 


> # method 的 默认 参数 





H 模型 输出 可 视 化 1 














井 模型 输出 可 视 化 2 





# 加 载 需要 的 扩展 包 
> resMvr <— mvr(density ~ NIR.ncomp-5.data- yarn| yarn $ train, ]) 


Æ = "simpls") 是 SIMPLS 


> # method= "oscorespls") Æ O— PLS 
> # method= "kernelpls") jŒ Kernel— PLS 
> pred. resp <— predict (resMvr,ncomp= 1,newdata= yarn[! yarn $ train, ]) 


# 





> pred. resp 


>» 1 comps 


110 52. 
52. 
34. 
37. 
32. 
20. 
22. 


22 
31 
41 
51 
61 
71 


density 


82470 
88401 
04177 
35532 
17666 
62980 
40331 


裔 最 小 二 乘 方法 模型 预测 


>pls_dev=mvr_dev(y~X,ncomp=50,data=PAC,method= "simpls") 
> # PLS 的 双向 交互 检验 方法 


SEP 

















Number of components 


偏 最 小 二 乘 回归 
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># 默认 参数 有 100 次 重复 建 模 
> pls plotl- plotSEPmvr(pls dcev.opt—11.PAC$ y. PAC $ X. 
>+ method= "simpls") 


> pls dev $ afinal 
[1] 11 


除 此 之 外 ，chemometrics tJ H 





H 结果 的 可 视 化 
# 最 佳 的 主 成 分 数 


四 还 有 很 多 其 他 的 回归 方法 可 以 选择 ， 如 逐步 回归 的 step- 





wise 图 数 ， 交 互 检验 的 索 套 回归 lassoCV 图 数 ， 交 互 检验 的 岭 回 归 ridgeCV 函数 ， 其 他 的 








扩展 包 ， 如 nnet 包 里 的 神经 网 络 nnet KZ, rpart 包 里 的 回归 树 方法 rpart PAZ. neural 包 
里 的 线性 核 回归 rbftrain 函数 。 感 兴趣 的 读者 可 以 加 载 相应 的 扩展 包 ， 然 后 借助 函数 的 在 线 


帮助 和 参考 例子 代码 学 习 , H 


























(Z) 模式 识别 3 X 


1. 线性 判别 分 析 
> library( MASS) 
> data(fgD 
>grp <— fgl $ type 


> X «—— scale(fgl[.1:9 D 





HT fs LEAL TE UC — — 4r 2. 


> dat <— data. frame(grp, X) 
> train <— sample(1;nrow(dat).143) 


> resLDA <— lda(X[ train, ].grp[ train D # 贝 叶 


# 导入 glass 数据 集 所 在 的 包 
# 导入 galss 数据 集 

# glass 数据 集 的 分 类 信息 

# 自 标 度 化 数据 

# 生成 数据 框 


H Xr) 


I| 练 集 














斯 判别 分 析 训 练 模型 


> predLDA <— predict(resLDA ,newdata— X[ — train. D $class # 预测 验证 集 
> tableCgrp[ — train], predLDA) 


> predLDA 


WinF WinNF Veh Con 


WinF 18 
WinNF 7 
Veh 5 
Con 0 
Tabl 1 
Head 0 


2. 天- 最 近邻 法 
> libraryCclass) 


> reskNN <— knn(CX[ train, ]. X[ — train. ]. grp[ train]. k —25) 


5 


p= 
ol 


O c» Co r9 


| 


lI. O O O QD 


0 


c» c r$) O CS 























# 预测 结果 和 真实 值 之 间 对 比 


Tabl Head 
0 0 
1 0 
0 0 
0 1 
1 1 
0 4 


# 加 载 近 邻 法 所 在 的 包 


> tableCgrp[ —train|,reskNN) 


reskNN 


WinF WinNF Veh Con 


WinF 19 
WinNF 6 
Veh 5 
Con 3 
Tabl 5 
Head 0 


5 
17 


HH C r5 P2 


0 


c O c» CQ» O 


0 


C» O XO» O c» 


Tabl Head 
0 0 
0 0 
0 0 
0 1 
0 1 
0 4 














# 训练 模型 并 预测 
# 预测 结果 和 真实 值 之 间 对 比 
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3. K- 最 近邻 法 的 交互 检验 方法 





> library(chemometrics) # 加 载 交 互 检验 近邻 法 所 在 的 包 
> calibr 过 一 sample(l:nrow(dat),143) # 三 分 之 二 样本 为 训练 集 





> resknn <— knnEval(X,grp,calibr,knnvec= seq(1,30)) #k=1~30 
> str(resknn) 


List of 6 

$ trainerr: num [1:30] 0 0.119 0.161 0.182 0. 217 ... 

$  testerr: num [1:30] 0. 324 0. 366 0. 352 0. 366 0. 352 ... 

$ cvMean; num [1:30] 0. 29 0. 335 0. 301 0. 377 0. 348 ... 

$  cvSe; num [1:30] 0. 05 0. 0338 0.03 0.0365 0.0462 ... 

$  cverr: num [1:10.1:30] 0. 267 0.533 0.533 0.143 0. 214 ... 
$  knnvec: int[1:30]123456789]10... 








由 于 输出 较 多 ， 这 里 浏览 输出 结果 依次 trainerr JJ k —1-—30 的 训练 集 的 错误 率 ， 
testerr 为 验证 集 的 错误 率 ，cvMean 为 交互 检验 的 平均 错误 率 ，cvSe 为 交互 检验 的 错误 率 方 
22. cverr 为 10 折 交 互 检验 的 详细 结果 列表 。 

4. 分 类 回归 树 方法 


> library(rpart) # classification trees 








>treel<— rpart(grp[ — train |. ,data 一 as. data. frame(X[ train, ]), method= "class") 
> # use all remaining variables in "dat" for the tree 
> plot(treel) # plots the tree,see Figure 5. 16 
> text(treel) # adds text labels to the plot 
> treel 
node) ,split,n,loss,yval, (yprob) 

x denotes terminal node 
1) root 143 90 WinNF (0. 32 0.37 0.07 0. 049 0.021 0.17) 

2) Ba« 0. 3216956 121 69 WinNF (0. 38 0. 43 0. 083 0. 058 0.025 0. 025) 
4) Al« —0. 04988595 75 33 WinF (0. 56 0. 28 0. 11 0. 013 0. 013 0. 027) 
8) Ca< 1. 070185 66 24 WinF (0.64 0.2 0.12 0 0. 015 0. 03) 
160 RI = —0. 4249188 56 15 WinF (0. 73 0. 2 0.054 0 0 0. 018) 
32) Fe< 0. 6977787 43 7 WinF (0.84 0.093 0.04700 0. 023) * 
33) Fe>œ>=0. 6977787 13 6 WinNF (0. 38 0.54 0.077000) * 
17) RI< 一 0. 4249188 10 5 Veh (0.10.20.500.10.1) * 
9) Caœ>=1. 070185 9 1 WinNF (0 0.8900.1100) * 
5) Al» = — 0. 04988595 46 15 WinNF (0. 087 0. 67 0. 043 0. 13 0. 043 0. 022) 
10) Mg>œ= — 0. 4849757 37 7 WinNF (0.11 0.81 0.054 0 0 0.027) * 
11) Mg< —0. 4849757 9 3 Con (0 0.11 00.670.220) * 
3) Ba>œ =0. 3216956 22 1 Head (0 0.045 0000.95) * 


5. 分 类 回归 树 交互 检验 方法 


> library(chemometrics) 
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> calibr <— sample(1:nrow(dat).143) # 2-3 of objects 
> cpsel <— c(0. 01:0. 05,0. 1,0. 15,0. 2:0. 5,1) 

> # selected parameters for the tree complexity 

> restree <— treeEval (X. grp.calibr.cp- cpsel) 

> str(restree) 


List of 6 

$ trainerr: num [1:5] 0. 266 0. 385 0. 385 0. 385 0. 664 

$  testerr: num [1:5] 0. 268 0. 408 0. 408 0. 408 0. 606 

$ cvMean; num [1:5] 0.392 0. 39 0. 49 0. 588 0. 727 

$ cvSe; num [1:5] 0. 051 0. 037 0. 0567 0. 0377 0. 0229 

$  cverr: num [1,10,1:5] 0. 267 0. 533 0, 267 0. 357 0. 643... 
$ cp: num [1:5]0.010.10.15 0.2 1 





输出 结果 依次 trainerr 为 训练 树 的 复杂 度 从 0.01 到 1 的 训练 集 的 错误 率 ，testerr 为 验 
证 集 的 错误 率 ，cvMean 为 交互 检验 的 平均 错误 率 ，cvSe 为 交互 检验 的 错误 率 方差 ，cverr 
为 10 折 交 互 检验 的 详细 结果 列表 ，cp 为 不 同 复杂 度 。 
6. 神经 网 络 交互 检验 方法 
> library Cchemometrics) 
> calibr <— sample(1:nrow(dat).143) # 2-3 of objects 
> weightsel <— c(0,0. 01,0. 1,0. 15,0. 2,0. 3,0. 5,DD 
> # selected parameters for the weight decay 
> resANN « — nnetEvalCX, grp.calibr.decay — weightsel,size— 20) 
> £ generates Figure 5. 26 (left) with a fixed 
> # number of hidden layers (size= 20) 
> str(resANN) 





List of 7 

$ trainerr; num [1:8] 0.657 0.014 0. 175 0. 217 0. 252 ... 

$ testerr: num [1:8] 0. 704 0. 282 0. 31 0. 352 0. 366... 

$  cvMean: num [1:8] 0. 643 0. 336 0. 343 0. 328 0. 343 ... 

$ cvSe; num [1:8] 0. 047 0. 0424 0. 033 0.0528 0. 0359... 
$ everr: num [1:10,1:8] 0.667 0.8 0.467 0.571 0.5... 

$ decay: num [1:8] 0 0.01 0.10.15 0.20.30.51 

$ size: num 20 





输出 结果 依次 trainerr 为 训练 树 的 衰变 权重 从 0 到 1 的 训练 集 的 错误 率 testerr 为 验证 
集 的 错误 率 ，cvMean 为 交互 检验 的 平均 错误 率 ，cvSe 为 交互 检验 的 错误 率 方差 ，cverr 为 
10 折 交 互 检验 的 详细 结果 列表 ，decay 为 衰变 的 权重 向 量 ，size 为 网 络 的 单元 数 。 也 可 以 通 
过 扩展 包 nnet 中 的 nnet 函数 来 训练 ，predict 函数 来 预测 ， 也 可 以 得 到 相应 的 结 

7. 支持 向 量 机 方法 
> library(e1071) z 加 载 SVMs 所 在 的 扩展 包 
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> resSVM 所 一 svm(X[train, ], grp[ train]. kernel "radial",gamma=0. 5) 
> res=<—predict(resSVM, X| — train, ]) z 预测 验证 集 所 属 的 类 别 
> tableCgrp[ — train] ,res) 








res 
WinF WinNF Veh Con Tabl Head 

WinF 16 8 0 0 0 0 
WinNF 5 18 0 0 0 0 
Veh 5 2 0 0 0 0 
Con 0 4 0 2 0 0 
Tabl 1 5 0 0 0 0 
Head 0 1 0 0 0 4 


8. 支持 向 量 机 的 交互 检验 方法 
> library Cchemometrics) 
> calibr <— sample(1:nrow(dat).143) # 2-3 of objects 
> gamsel <— c(0,0. 05,0. 1,0. 2,0. 3,0. 5.,1,2,5) 
> # selected parameters for gamma 
> resSVM <— svmEvalCX.grp.calibr. gamvec— gamseD 
> # generates Figure 5. 27 
> str(resSVM) 


List of 6 

$ trainerr: num [1:9] 0.65 0. 259 0.21 0. 168 0. 161 ... 

$ testerr; num [1:9] 0. 718 0. 366 0. 324 0. 31 0.31... 

$ cvMean: num [1:9] 0. 728 0. 343 0. 302 0. 32 0. 336 ... 

$ cvSe: num [1:9] 0. 0188 0. 0483 0. 025 0. 042 0.0394 . . . 
$ cverr: num [1:10,1:9] 0.667 0. 733 0. 733 0. 714 0. 786 ... 
$ gamvec: num([1:9]00.050.10.20.30.5125 














输出 结果 依次 为 : trainerr 为 训练 树 的 线性 核 伽 马 参数 从 0 到 5 的 训练 集 的 错误 率 ，tes- 
terr 为 验证 集 的 错误 率 ，cvMean 为 交互 检验 的 平均 错误 率 ，cvSe 为 交互 检验 的 错误 率 方 
差 ，cverr 为 10 折 交 互 检验 的 详细 结果 列表 ，gamvec 为 线性 核 伽 马 参数 的 向 量 。 

(=) 预 处 理 方法 

光谱 数据 中 的 预 处 理 方法 是 增强 光谱 特征 的 一 个 必 不 可 少 的 步骤 ,特别 是 对 于 近 红 外 光 
谱 的 光 程 校正 方法 ， 拉 曼 光 谱 的 灾 光 背景 扣除 方法 和 色谱 的 质量 控制 中 的 峰 校正 方法 。 
(UU) Whittaker 平滑 方法 和 airpls 自 适 应 迭代 惩罚 最 小 二 乘 

惩罚 最 小 二 乘 算 法 本 质 上 是 一 种 灵活 的 平滑 方法 ， 是 Whittaker 在 1922 年 提出 。 近 来 ， 
Eilers 扩展 了 其 应 用 范围 ， 并 将 其 用 于 一 般 的 化 学 信号 平滑 和 基线 校正 。 中 南大 学 的 张 志 敏 
博士 在 此 基础 上 还 提出 了 自 适应 迭代 加 权 惩 罚 最 小 二 乘法 (airpls) 方法 ， 下面 该 文章 中 公 
布 的 一 个 程序 包 中 函数 代码 ， 参 考 下 面 网 址 : 

http: // code. google. com/p/airpls 
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> WhittakerSmooth <— function(x. w,lambda.differences— 1) { 

x= matrix(x,nrow=1l,ncol=length(x)) 

L=length(x) 

E-—spMatrix(CL.L.i-—seqC1.L).j— seqC1. L2 .repC1. L2) 
D-as(CdiffCE,1, differences) , "dgCMatrix") 

W —as(CspMatrixCL,L.i—seq(1.L).j— seqC1. L2 ,w) , "dgCMatrix") 
background solveCCW 4-lambda * t(D) 96 * VDO .tCw * 3005 


return(as. vector(background)) 





} 


> airPLS 所 一 function(x,lambda=10,differences=1,itermax=20){ 





} 


x— as. vector( x) 


m= length(x) 


w-rep(l.m) 


control— 1 
i=] 
while(control= =1){ 


} 


z= WhittakerSmooth(x, w,lambda,differences) 


d—x-—z 
sum smaller-—abs(sum(d| d«0 D) 
if(sum smaller-0. 001 * sum(abs(x)) || i= —itermax) 


( 

control— 0 

} 

w[d- —0]-0 

w[ d«0 ]-—exp(i * absCd[.d—0 D /sum. smaller) 
w[1]-exp(i * max(d[ d—0 D /sum smaller) 
w[m]=exp(i * max(d[d—0 D /sum smaller) 

i 一 1 十 1 


return(z) 


V Python 语言 及 其 在 化 学 计量 学 中 的 应 用 


一 、Python 语言 简介 








Python 是 一 种 面向 对 象 、 直 译 式 的 计算 机 程序 语言 ， 具 有 近 二 十 年 的 发 展 历史 。 它 包 
含 了 一 组 功能 完备 的 标准 库 ， 能 够 轻松 完成 很 多 常见 的 任务 。 它 的 语法 简单 ， 与 其 他 大 多 数 
程序 设计 语言 使 用 大 括号 不 一 样 ， 它 使 用 缩 进来 定义 语句 块 。 它 经 常 被 当 作 脚本 语言 用 于 处 
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理 系 统管 理 任务 和 网 络 程序 编写 ， 然 而 它 也 非常 适合 完成 各 种 高 级 任务 。Python 支持 命令 
式 程序 设计 、 面 向 对 象 程序 设计 、 函 数 式 编 程 、 面 向 侧面 的 程序 设计 、 泛 型 编程 多 种 编程 

Python 的 创始 人 为 吉 多 。 范 罗 苏 姆 (Guido van Rossum), 1989 年 的 圣诞 节 期 间 ， 吉 
多 ， 范 罗 苏 姆 为 在 阿姆斯特丹 打发 时 间 ， 决 心 开 发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 
的 一 种 继承 。 之 所 以 选中 Python 作为 程序 的 名 字 ， 是 因为 他 是 BBC 电视 剧 一 一 蒙 提 ，… 派 森 
的 飞行 马戏 团 (monty python's flying circus) 的 爱好 者 。ABC 是 由 吉 多 参加 设计 的 一 种 教 
学 语言 。 就 吉 多 本 人 看 来 ，ABC 这 种 语言 非常 优美 和 强大 ， 是 专门 为 非 专业 程序 员 设 计 的 。 
但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ， 吉 多 认为 是 非 开 放 造 成 的 。 吉 多 决心 在 Python 中 
避免 这 一 错误 ， 并 获取 了 非常 好 的 效果 ， 完 美 结合 了 C 和 其 他 一 些 语言 。 就 这 样 ，Python 
在 吉 多 手中 诞生 了 。 实 际 上 ， 第 一 个 实现 是 在 Mac 机 上 。 可 以 说 ，Python 是 从 ABC 发 展 
起 来 ， 主 要 受到 了 Modula 一 3 ( 男 一 种 相当 优美 且 强 大 的 语言 ， 为 小 型 团体 所 设计 的 ) 的 影 
啊 。 并 且 结 合 了 Unix shell 和 C 的 习惯 。 

Python 2. 0 F 2000 ^E 10 H 16 日 发 布 , 增加 了 实现 完整 的 垃圾 回收 ， 并 且 文 持 
Unicode。 同 时 ， 整 个 开发 过 程 更 加 透明 ， 社 区 对 开发 进度 的 影响 逐渐 扩大 。Python 3. 0 于 
2008 年 12 月 3 日 发 布 ， 此 版 不 完全 兼容 之 前 的 Python 源 代 码 。 不 过 ， 很 多 新 特性 后 来 也 
被 移植 到 旧 的 Python 2. 6/2.7 版 本 。 

Python 是 完全 面向 对 象 的 语言 。 函 数 、 模 块 、 数 字 、 字 符 串 都 是 对 象 。 并 有 旦 完全 文 持 
继承 、 重 载 、 派 生 、 多 重 继承 ， 有 益 于 增强 源 代码 的 复 用 性 。Python 支持 重 载运 算 符 ， 
此 Python 也 支持 泛 型 设计 。 相 对 于 Lisp 这 种 传统 的 函数 式 编程 语言 ，Python 对 函数 式 设 
计 只 提供 了 有 限 的 支持 。 有 两 个 标准 库 (functools，itertools) 提供 了 与 Haskell 和 
Standard ML 中 类 似 的 函数 式 程 序 设计 工具 。 
虽然 Python 可 能 被 粗略 地 分 类 为 “脚本 语言 ”(script language)， 但 实际 上 一 些 大 规模 
软件 开发 项 目 例 如 Zope、Mnet、BitTorrent 及 Google 也 广泛 地 使 用 它 。Python 的 支持 者 
较 喜 欢 称 它 为 一 种 高 级 动态 编程 语言 ， 原 因 是 “脚本 语言 ” 泛 指 仅 作 简 单程 序 设计 任务 的 语 
言 ， 如 shell script, VBScript 等 只 能 处 理 简单 任务 的 编程 语言 ， 并 不 能 与 Python 相 提 
并 论 。 

Python 本 身 被 设计 为 可 扩充 的 。 并 非 所 有 的 特性 和 功能 都 集成 到 语言 核心 。Python fë 
供 了 丰富 的 API 和 工具 ， 以 便 程序 员 能 够 轻松 地 使 用 C、C 十 十 、Cython 来 编写 扩充 模块 。 
Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 内 。 因 此 ， 有 很 多 人 把 Python 
作为 一 种 “胶水 语言 ”(glue language) 使 用 。 使 用 Python 将 其 他 语言 编写 的 程序 进行 集成 
和 封装 。 在 Google 内 部 的 很 多 项 目 ， 例 如 Google App Engine 使 用 C 十 十 编写 性 能 要 求 极 
高 的 部 分 ， 然 后 用 Python 或 Java/Go 调用 相应 的 模块 。《Python 技术 手册 》 的 作者 马 特 利 
(Alex Martelli). 说 :“ 这 很 难 讲 ， 不 过 ，2004 年 ，Python 已 在 Google 内 部 使 用 ，Google fH 
募 许多 Python 高 手 ， 但 在 这 之 前 就 已 决定 使 用 Python。 他 们 的 目的 是 尽量 使 用 Python， 在 
不 得 已 时 改 用 C 十 十 ; 在 操控 硬件 的 场合 使 用 C 十 十 ， 在 快速 开发 时 候 使 用 Python," 

由 于 Python 语言 的 简洁 、 易 读 以 及 可 扩展 性 ， 在 国外 用 Python 做 科学 计算 的 研究 机 构 
日 益 增 多 ， 一 些 知 名 大 学 已 经 采用 Python 教授 程序 设计 课程 。 例 如 卡耐基 梅 隆 大 学 的 编程 
基础 、 麻 省 理工 学 院 的 计算 机 科学 及 编程 导论 就 使 用 Python 语言 讲授 。 众 多 开源 的 科学 计 
算 软 件 包 都 提供 了 Python 的 调用 接口 ， 例 如 著名 的 计算 机 视觉 库 OpenCV、 三 维 可 视 化 库 
VTK、 医 学 图 像 处 理 库 ITK。 而 Python 专用 的 科学 计算 扩展 库 就 更 多 了 ， 例 如 如 下 3 个 十 
分 经 典 的 科学 计算 扩展 库 : NumPy、SciPy 和 matplotlib， 它 们 分 别 为 Python 提供 了 快速 数 
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组 处 理 、 数 值 运算 以 及 绘图 功能 。 因 此 Python 语言 及 其 众多 的 扩展 库 所 构成 的 开 发 环境 十 
分 适合 工程 技术 、 科 研 人 员 处 理 实验 数据 、 制 作 图 表 ， 其 至 开发 科学 计算 应 用 程序 。 

说 起 科学 计算 ， 首 先 会 被 提 到 的 可 能 是 MATLAB, MET MATLAB 的 一 些 专 业 性 
很 强 的 工具 箱 还 无 法 替代 之 外 ，MATLAB 的 大 部 分 常用 功能 都 可 以 在 Python 世界 中 找到 
相应 的 扩展 库 。 和 MATLAB 相 比 ， 用 Python 做 科学 计算 有 如 下 优点 : 

首先 ，MATLAB 是 一 款 商用 软件 ， 并 且 价 格 不 菲 。 而 Python 完全 免费 ， 众 多 开源 的 
科学 计算 库 都 提供 了 Python 的 调用 接口 。 用 户 可 以 在 任何 计算 机 上 免费 安装 Python 及 其 绝 
大 多 数 扩展 库 。 

其 次 , 与 MATLAB 相 比 ，Python 是 一 门 更 易学 、 更 严谨 的 程序 设计 语言 。 它 能 让 用 
户 编写 出 更 易 读 、 易 维护 的 代码 。 

最 后 ，MATLAB 主要 专注 于 工程 和 科学 计算 。 然 而 即使 在 计算 领域 ， 也 经 常会 遇 到 文 
件 管理 、 界 面 设计 、 网 络 通信 等 各 种 需求 。 而 Python 有 着 丰富 的 扩展 库 ， 可 以 轻易 完成 各 
种 高 级 任务 ， 开 发 者 可 以 用 Python 实现 完整 应 用 程序 所 需 的 各 种 功能 。 


二 、Python 语言 中 的 基础 运算 操作 


Python 使 用 与 C、Java 类 似 的 运算 符 ， 支 持 整数 与 浮 点 数 的 数学 运算 。 同 时 还 支持 复 
数 运算 与 无 穷 位 数 〈 实 际 受 限于 计算 机 的 能 力 ) 的 整数 运算 。 除 了 求 绝 对 值 函数 abs. O 
外 ， 大 多 数 数学 函数 处 于 math 和 cmath 模块 内 。 前 者 用 于 实数 运算 ， 而 后 者 用 于 复数 运 
算 。 使 用 时 需要 先导 和 它们， 比如 : 
>>import math 
Z32»print (math. sin (math. pi/2) ) 

(一 ) 数据 类 型 与 数学 运算 

1. 数据 类 型 

变量 可 以 处 理 不 同类 型 的 值 ， 称 为 数据 类 型 。Python 有 多 种 内 置 数据 类 型 。 以 下 是 比 
较 重要 的 一 些 . 

Booleans [布尔 型 ] 或 为 True [ 真 ] 或 为 False R]; 

Numbers [数值 型 ] 可 以 是 Integers [整数 ] (1 和 2), Floats [ 浮 点 数 ] (1.1 和 1.2)、 
Fractions [分 数 ] (1/2 和 2/3); 甚至 是 Complex Number [复数 ]; 

Strings [字符 串 型 ] 是 Unicode 字符 序列 ， 例 如 : 一 份 HTML 文档 。 

Bytes [ 字 节 ] 和 Byte Arrays |[ 字 节 数 组 ], 例如 : 一 份 JPEG 图 像 文件 

Lists [列表 ] 是 值 的 有 序 序列 。 

Tuples [元 组 ] 是 有 序 而 不 可 变 的 值 序列 。 

Sets [集合 ] JE REICH ELI ELE 。 

Dictionaries [字典 ] Z& EER BZC E 8128. 

2. 基本 数学 运算 

abs GO # RAIE: 中 参数 可 以 是 整 型 ， 也 可 以 是 复数 ;加 若 参数 是 复数 ， 则 返回 
复数 的 模 




























































































































































































complex([real[ ,imag | |) # 创建 一 个 复数 。 

divmod(a. b) # 分 别 取 商 和 余数 。 注 意 : 整 型 \ 浮 点 型 都 可 以 。 

float([ x D # 将 一 个 字符 串 或 数 转换 为 浮 点 数 。 如 果 无 参数 将 返回 0.0. 
int([x[ ,base]]) # 将 一 个 字符 转换 为 int 类 型 ,base 表示 进 制 。 

















long(CLxL,basej]]) # 将 一 个 字符 转换 为 long 类 型 。 


Hox ez | 


pow(x,yL ,2z]) # RI x Hj y XE. 
rangeC[ start]. stop[ ,step |) # 产生 一 个 序列 ,默认 从 0 开始 。 











round(x[L ,n]) # MUELA. 

sum(iterablel , start ]) H 对 集合 求 和 。 
oct(x) # 将 一 个 数字 转化 为 8 进 制 。 

hex(x) # 将 整数 x 转换 为 16 进 制 字 符 串 。 
chr(i) H 返回 整数 i 对 应 的 ASCII 字符 。 
bin(x) # 将 整数 x 转换 为 二 进 制 字符 串 。 
boolC( x D # 将 x 转换 为 Boolean 类 型 。 











(二 ) 逻辑 判断 

all (iterable) # 巴 集合 中 的 元 素 都 为 真 的 时 候 为 真 ; 外 特别 的 ， 若 为 空 串 返 回 为 True., 

any (iterable) “，# 四 集合 中 的 元 素 有 一 个 为 真 的 时 候 为 真 ; ORE. pgs iR Inl 
为 False。 

cmp (x. y) # ”如果 x 二 y， 返 回 负 数 ; x—y. E] 0; xy. BPE. 

(=) 算术 运算 与 赋 1 

1. 算术 运算 符 

A N-1 列 出 了 所 有 Python 语言 支持 的 算术 运算 符 。 假 设 变 量 a 赋值 为 10， 而 变量 5 A 
值 为 20。 


Python 语言 支持 的 算术 运算 符 








































































































运算 符 描 述 实 例 
十 加 法 一 一 对 操作 符 的 两 侧 加 值 a +b = 30 
减法 一 一 从 左 侧 操作 数 减 去 右 侧 操作 数 4 一 0 一 一 10 
乘法 一 一 相 乘 运算 符 两 侧 的 值 a * b — 200 
/ 除 右 侧 操作 数 除 以 左 侧 操作 数 b/a-2 
% 模 右 侧 操作 数 和 余 返回 除 以 左 侧 操作 数 b%=0 
* x 指数 一 一 执行 对 操作 指数 ( 寡 ) 的 计算 
// 地 板 除 操作 数 的 除法 ,其 中 结果 是 将 小 数 点 后 的 位 数 被 除去 的 商 9//2—4 而 9.0//2.0—4.0 








试 试 下 面 的 例子 就 明白 了 所 有 的 Python 编程 语言 提供 的 算术 运算 符 : 


4* ! /usr/bin/python 


a- 21 
b- 10 
c- 0 
c- at b 


print "Line 1- Value of c is ",c 
G= gi 16 

[peines aluet cusa 
c Mc 9 

Erne me Volue oe Toe 
c-a/b 
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print "Line 4 
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ec as b 


print "Line 5 


a= 2 
b= 3 
GE gv 


print "Line 6 


sab 


a- 10 
b-5 
c- a//b 


print "Line 7 


Value ofc is ",c 


Value of c is sec 


Wee et e xg "c 


Value of c rs c 








当 执行 上 面 的 程序 ， 它 会 产生 以 下 结 


Line 


Line 





Line 
Line 
Line 
Line 


Line 


- Value 
- Value 
- Value 
Value 
-— Value 


- Value 


- oO OC) 5 CQ NN Hn| 
l 


- Value 





GE e xe Sl 
Sf gas Li 
of c is 210 
OR G ils Z 
(E (B die) 1l 
ofcis8 
ME ( dle Z 


2. 变量 赋值 语句 


变 
心 内 存 
就 是 赋 





aaa- 
bbb- 
(GE 
ddd- 








值 操作 符 : 


=23 
'hello' 
= gud 9 
'hello' + 


量 赋值 语句 具有 如 下 特点 : (D 变量 无 须 事 先 声明 ; ORTUS düEDS E. COJCANOE 


管理 ， 变 量 











会 被 “回收 ”; del 语句 能 够 直接 释放 资源 ;中 Python 中 的 “二 ”号 
(Gl 523) 
'world' 


eee- [3. 14e10, '3en el of end a', 3. 333- 2. 2223] 


Python 语言 中 赋值 并 不 是 将 一 个 值 赋 给 一 个 变 


不 管 这 





个 对 象 是 新 建 的 还 是 存在 的 都 是 将 该 对 象 的 引用 (并 不 是 值 ) 赋值 给 变量 。 


x= 1 
Wwe sx— xo di 
print x,y 


COD 增 量 赋值 











量 ， 对 象 是 通过 引用 传递 的 。 在 赋值 时 ， 

















出 








符号 和 算术 操作 符 连接 在 一 起 ， 将 计算 结果 重新 赋值 给 左边 的 变量 ， 这 


就 是 增 量 赋值 。 例 如 : 


Hox & | 


x= x+ 1 A SEA x+ = 1 





其 他 操作 符 :+ = -= * / % 大 大 <= 5» = &= ^- |= 








(2) 多 重 赋值 创建 了 一 个 值 为 1 的 整数 对 象 ， 把 该 对 象 的 同一 个 引用 赋 给 x. y. z 
就 是 将 一 个 对 象 赋 给 了 多 个 变量 。 


x= y= z=- 1l 
DELME y poz 
LR 1: 
JL 3L d 





(3) 多 元 赋值 将 多 个 对 象 赋 给 多 个 变量 就 是 多 元 变量 ， 等 号 两 边 的 对 象 都 是 元 组 。 


qu 





(x,y,z)- (1,2,'a string") 
Toe le 3x5 Wn m 
输出 : 


JL 2 m string 


利用 多 元 赋值 可 以 实现 Python 中 的 变量 交换 : 


Kay gA 
owie s Y 
输出 : 

43 

Mp Sox 
ENE 3m 
LR 1: 

2 1 














(四 ) 流程 控制 语句 

1. if 语句 

if 语句 用 来 检验 一 个 条 件 ， 如果 条 件 为 真 则 运行 一 块 语句 〈 称 为 k 0. TAE A 5 
一 块 语句 〈 称 为 else- 块 ) else 从 名 是 可 选 的 。if 语句 在 结尾 处 包含 一 个 冒号 ， 下 面 跟 着 一 
个 语句 块 。i{f 语句 块 中 可 以 使 用 另外 一 个 {语句 块 ， 称 为 般 套 的 二 语 句 。 














4* ! /usr/bin/python 

number- 23 # 设置 变量 number 为 一 个 整数 。 

guess- int(raw input('Enter an integer: ')) # 使 用 内 建 的 raw_input() 函数 取得 
输入 的 数字 ,通过 int 把 输入 的 字符 串 转 换 为 整数 ,并 存储 在 变量 guess 中 。 

if guess= = number: * 如 果 输 入 值 等 于 number 


print 'Congratulations, you guessed it. ' 
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elif guess < number: # 如 果 输 入 值 小 于 number 
print 'No,it is a little higher than that' 

[ES C 
print 'No,it is a little lower than that' 


print 'Done' 





运行 结果 输出 : 

i a J/ 3b ES TN 

Enter an integer; 50 

No,it is a little lower than that 
Done 

ai o /ty 

Enter an integer: 22 

No,it is a little higher than that 





Done 

WP o /ty 

Enter an integer: 23 
Congratulations, you guessed it. 


Done 


2. while 语句 








只 要 在 一 个 条 件 为 真 的 情况 下 ，while 语句 就 会 重复 执行 一 块 语句 ， 直 到 条 件 为 假 才 结 























R., while 语句 是 所 谓 循 环 语句 的 一 个 例子 。while 语句 有 一 个 可 选 的 else 从句。 


tsr /n/n 





number= 23 # 设置 变量 number 为 一 个 整数 。 
running= True # TE while 循环 开始 前 把 running 变量 设置 为 True。 
while running: # 检验 变量 running 是 否 为 True, 然 后 执行 后 面 的 whnile- H, 


guess- int(raw input('Enter an integer; ')) 
if guess- = number: 
print 'Congratulations,you guessed it. ' 
running- False 
elif guess « number: 
print 'No,it is a little higher than that' 
eS 
print 'No,it is a little lower than that' 
else: # 条 件 为 假 执行 
print 'The while loop is over. ' 


print 'Done' 





运行 结果 输出 : 
# . /while. py 
Enter an integer: 50 
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No,it is a little lower than that 
Enter an integer: 22 

No,it is a little higher than that 
Enter an integer: 23 
Congratulations, you guessed it. 
The while loop is over 


Done 


3. for 循环 
for..in 是 另外 一 个 循环 语句 ， 它 在 一 序列 的 对 象 上 递归 ， 就 是 逐一 使 用 队列 中 的 每 个 
项 目 。 

















4* ! /usr/bin/python 

for i in range(1,5): # 打印 使 用 内 建 的 range PR Zi IE p B — Fr FU XC. 
priae di 

eser 
print 'The for loop is over' 

运行 结果 输出 : 

o J EOL jo 


> &» Bo I Se om 


The for loop is over 


注意 : 在 C/C 十 十 中 写 for (nt i—0; i< 5; i 十 十 )， 用 Python 可 以 写成 for i in range 
(0. 5) 

4. break 语句 

break 语句 是 用 来 终止 循环 语句 的 ， 即 使 循环 条 件 没 有 称 为 False 或 序列 还 没有 被 完全 
递归 ， 也 停止 执行 循环 语句 。 需 要 注意 如 果 从 for 或 while 循环 中 终止 ， 任 何 对 应 的 循环 
else 块 将 不 执行 。 








p ! /usr/bin/python 
while True: 
s= raw input('Enter something: ') 
if s= = 'quit':$ 如 果 输 入 内 容 为 quit, 则 执行 break 语句 。 
break 
print 'Length of the string is',len(s) 
print 'Done' 
输出 : 
# . /break. py 


Enter something: Programming is fun 
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Length of the string is 18 

Enter something: When the work is done 

Length of the string is 21 

Enter something: if you wanna make your work also fun: 
Length of the string is 37 


Enter something: use Python! 











Length of the string is 12 








Enter something: quit 


Done 


5. continue 语句 














continue 语句 被 用 来 跳 过 当前 循环 块 中 的 剩余 语句 ， 然 后 重新 进行 下 一 轮 循 环 。 


4* ! /usr/bin/python 
while True: 


s= raw input('Enter something: ') 





if s= = 'quit':$ 如 果 输 入 内 容 为 quit, 则 执行 preak 语句。 
break 

if len(s) < 3:4 使 用 len () 获 取 字 符 串 长 度 , 如 果 长 度 小 于 3, 使 用 continue 8 
Continue 


print 'Input is of sufficient length' 
continue 语句 对 于 for 循环 也 有 效 。 
输出 : 
# . /continue. py 
Enter something: a 
Enter something: 12 
Enter something: abc 
Input is of sufficient length 


Enter something: quit 


6. return 语句 


return 语句 用 来 从 一 个 函数 返回 即 跳 出 函数 ， 也 可 选 从 函数 返回 一 个 值 。 


4 ! /usr/bin/python 
def maximum(x, y): 
ILIE 3& 2» 78 
SE Un 
Giles 
Tal YW 
print maximum(2, 3) 
输出 : 
4 ./func return. py 
3 


新 执行 该 循环 。 
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没有 返回 值 的 return 语句 等 价 于 return None。None 是 Python 中 表示 没有 任何 东西 的 特殊 
类 型 。 如 果 一 个 变量 的 值 为 None， 可 以 表示 它 没 有 值 。 


三 、R 与 Python 语言 在 数据 分 析 方 面 的 对 比分 析 


面 对 大 量 的 数据 进行 分 析 时 ， 选 择 一 款 好 的 工具 或 者 方法 至 关 重 要 ， 市 约 时 间 的 同时 ， 
还 能 让 数据 结构 清晰 明了 ， 在 最 近 几 年 ， 用 R、Python 的 人 越 来 越 多 ， 于 是 出 现 了 众多 关 
于 用 哪个 做 数据 分 析 最 好 的 争议 。 在 这 里 分 享 一 下 关于 R 和 Python 数据 分 析 方 面 的 观点 : 
首先 ， 从 整体 来 说 ,认为 数据 分 析 需 要 的 是 在 有 限时 间 内 ， 用 最 可 行 的 方式 拿 到 最 有 用 的 结 
果 。 因 此 ， 不 应 该 局 限于 任何 单一 的 编程 方法 ， 而 应 该 是 各 取 所 长 ， 根 据 个 人 特点 、 问 题 的 
形式 而 灵活 选取 或 者 结合 。 其 实 ， 关 于 R 做 数据 分 析 的 优势 已 经 不 言 而 喻 了 ， 众 多 和 全 面 
的 统计 方法 ， 使 得 从 方法 上 来 说 ，R 的 数据 分 析 能 力 是 其 他 几 个 不 能 比拟 的 。 其 实 争议 最 多 
的 也 就 是 出 现在 其 计算 性 能 和 全 面 性 上 。 

CD 运算 速度 ”针对 程序 速度 的 比较 ， 有 众多 的 测试 方法 和 不 同 的 结果 。 综 合 其 他 各 个 
地 方 的 测试 结果 ， 其 实 大 体 说 来 从 基本 运算 速度 来 说 ，Python > R。 但 是 要 注意 ,这 里 所 
说 的 运算 速度 是 “基本 计算 ”。 也 就 是 说 不 涉及 引用 特殊 package， 不 用 特殊 数据 结构 和 运 
算 方 式 〈 比 如 有 中 的 矢量 化 运算 ) 的 运算 。 而 这 样 的 运算 比较 很 大 程度 上 取决 于 基本 程序 
逻辑 的 速度 ， 比 如 for 循环 。R 在 这 点 的 表现 是 很 差 的 。 基 本 上 会 比 Python f£ 3 一 10 fii, 
但 是 ， 如 果 你 愿意 多 花 些 心思 更 好 地 利用 矢量 化 编程 进行 计算 ， 那 么 无 论 从 程序 的 长 度 还 是 
速度 上 ， 都 会 使 R 的 表现 有 显著 性 提高 。 总 之 ， 在 这 样 的 使 用 方式 下 ， 对 大 部 分 运算 ，R 
的 速度 是 可 以 和 Python 接近 的 ， 当 然 ， 用 户 也 需要 花 更 多 心思 去 优化 程序 。 除 此 之 外 ,在 
实际 使 用 的 角度 来 说 ， 数 据 分 析 在 R 中 大 部 分 时 候 使 用 已 有 的 方法 ， 因 此 可 以 使 用 众多 已 
经 成 型 的 package。 如 果 你 使 用 的 package 质量 很 好 ， 通 常 在 大 计算 量 的 程序 中 ， 作 者 实际 
使 用 的 都 是 更 低级 更 高 效 的 语言 〈 比 如 C、Fortran)。 因 此 ， 这 些 大 计算 量 的 步骤 实际 上 是 
以 最 高 效 的 方式 完成 的 。 如 果 相 应 的 运算 在 Pyhon 里 面 没有 调用 其 他 低级 语言 的 优化 ，R 
就 可 以 在 这 些 方 面 胜 过 Python。 这 里 说 到 的 是 不 需要 自己 编写 的 底层 语言 调用 ,在 R 和 
Python 中 都 可 以 实现 调用 别 的 语言 ,但 是 这 需要 用 户 自 己 编程 从 人 工 角 度 来 讲 ， 专 业 性 
较 高 ， 不 在 讨论 范围 。 整 体 来 说 ,对 于 对 R 使 用 和 编程 有 一 定 深入 理解 的 人 来 说 ,不 认为 R 
做 数据 分 析 的 速度 会 比 Python 差 。 但 是 对 于 简单 粗暴 的 编程 方式 ，Python 的 确 更 胜 一 筹 。 

(2) 全 面 性 ”从 这 点 来 说 ， 认 为 Python 的 确 胜 过 R。 无 论 是 对 其 他 语言 的 调用 ， 和 数 
据 源 的 连接 、 读 取 ， 对 系统 的 操作 ， 还 是 正则 表达 和 文字 处 理 ，Python 都 有 着 明显 优势 。 
HÉ3E. python 本 身 是 作为 一 门 计 算 机 编程 语言 出 现 的 ， 而 人 本 身 只 是 源 于 统计 计算 。 所 以 
从 语言 的 全 面 性 来 说 ， 两 者 差异 显著 。 综 上 所 述 ， 对 于 本 地 文件 直接 的 数据 分 析 ， 大 部 分 时 
f R 是 比 Python 更 好 的 《速度 相 近 ， 但 分 析 更 专业 )。 如 果 涉 及 多 方 资 源 的 协调 〈 比 如 远 
程 、 数 据 库 、 系 统 、 网 页 )， 那 么 最 好 的 方式 是 将 Python 和 R 相 结合 使 用 。 


四 、Python 与 MATLAB 语言 线性 代数 计算 方面 的 对 比分 析 


本 文 主要 涉及 线性 代数 和 甜 阵 论 的 基本 内 容 。 先 回顾 这 部 分 理论 基础 ， 然 后 给 出 MAT- 
LAB， 继 而 给 出 Python 的 处 理 。 因 为 Python 是 面向 对 象 的 ， 操 纵 起 来 会 更 接近 人 的 正常 
思维 ; 而 MATLAB 大 多 是 以 函数 实现 的 ， 是 向 对 象 施加 的 一 个 操作 。 比 如 ，A 是 一 个 矩 
阵 ， 它 有 一 个 属性 attr。 用 Python 更 可 能 是 A. attr, MAA MATLAB 更 可 能 是 attr CAD, 

线性 代数 (linear algebra)〉 是 数学 的 一 个 分 支 ， 研究 矩阵 理论 、 向 量 空间 、 线 性 变换 和 
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有 限 维 线形 方程 组 等 内 容 。 主 要 内 容 有 : CEBA: MERER, HE, MEE, ITIR, 
EPERE, EER: OEREN, P W: 加 解 方程 ;由 线性 相关 ; 句 向 量 空间 ; OME 
值 和 特征 向 量 ; 对称、 相似; @@ 二 次 标准 型 ，@ 线 性 空间 和 基 变 换 ; CEZ; OE 
对 角 化 ; DEEN: 3 重要 数字 特征 。 

1. 建立 矩阵 

MATLAB 中 ， 和 矩阵 是 默认 的 数据 类 

A= [1, 2, 3] 或 者 A= [123] 

% 建立 了 一 个 行 向 量 ， 不 同 元 素 之 间 使 用 空格 或 者 逗号 分 开 都 是 可 以 的 。 如 果 须 建立 
一 个 和 矩阵， 则 使 用 分 号 隔 开 不 同 的 行 。 

A= [1, 2, 3; 4, 5, 6] 

那么 ， 建 立 一 个 列 向 量 就 好 办 了 。 每 行 一 个 元 素 ， 分 号 分 开 即 可 。 当 然 也 可 以 使 用 行 向 
量 的 转 置 (一 个 撤 号 表示 转 置 )。 

A= [1; 2; 3] 或 者 A= [1, 2. 3] 

MATLAB 内 置 了 很 多 特殊 的 矩阵 生成 函数 ， 建 立 特 殊 和 矩 阵 十 分 方便 。 

CD 用 来 生成 特殊 规则 的 矩阵 。 如 全 零 、 全 一 、 随 机 、 等 步 长 等 形式 。 



































型 。 它 把 向 量 看 做 1 XN 或 者 NX1 的 和 矩阵。 




















X=zeros (m, n) % 生成 一 个 mx*n 的 全 0 矩阵。 
X=ones (m, n) 96 生成 一 个 全 1 和 矩阵 。 
X-eye (m, n) V6 生成 一 个 单位 阵 。 





它们 的 重要 作用 在 于 预先 分 配 和 矩阵 空间 ， 所 以 ， 在 预知 矩阵 规模 但 是 不 知道 矩阵 具体 数 
据 的 情况 下 ， 先 用 这 儿 个 函数 生成 一 个 矩阵 ， 对 提高 运算 速度 十 分 有 用 。 














X=rand (m, n) 外 生成 一 个 平均 分 布 的 随机 矩阵， 数值 区 间 [0，1]。 同 
理 ，randn (m, n) % 生成 一 个 服从 正 态 分 布 的 随机 矩阵 。 
v=linspace (a. b. n  % 产 生 线 性 空间 矢量 。a Mo 分 别 是 起 点 和 终点 ，7? 是 本 区 间 





内 的 点 数 ， 默 认 100 个 点 。 同 理 ， 
v—logspace (a, b, n) ，” 凶 产 生 对 数 空间 矢量 。 不 过 它 默认 点 数 是 50 个 。 











v=1: 0.1: 10 % 产生 一 个 线性 的 矢量 。 规 格 是 一 一 起 点 : 步 长 值 : 终点 
(2) 第 二 组 用 来 在 原 有 矩阵 基础 上 获得 一 个 具有 某 些 特征 的 矩阵 。 
X 一 diag (v, k) fll v—diag (X. k) % 前 者 用 矢量 vy 中 的 元 素 生成 一 个 对 角 和 矩 








VE. k 是 对 角 移 位 因子 ， 默 认为 0， 即 主 对 角 。&y 盖 0， 对 角 线 右 移 。 后 者 返回 矩阵 X 的 对 角 
TR, FERE v 中 。k 的 意义 相同 。 

X1=triu (X, k) 和 Xl 二 tril (X, kb) ^r EEE X 的 上 三 角 和 矩阵 和 下 三 角 和 矩阵 。 

G) 第 三 组 用 来 生成 一 些 具 有 理论 价值 的 ， 往 往 是 以 数学 家 命名 的 和 抢 阵 。 

如 magic (n) 生成 行列 相 加 均 为 同一 个 数字 的 方 阵 ，pascal Cn) 生成 帕斯卡 尔 和 矩阵 ， 
hilb (n) 生成 希 尔 伯 特 矩阵 ，vander (v) 生成 范 德 蒙 德 和 矩阵 ， 等 等 。 









































Python 使 用 NumPy 包 完 成 了 对 N 维 数 组 的 快速 便捷 操作 。 使 用 这 个 包 ， 需 要 导入 
NumPy。SciPy 包 以 NumPy 包 为 基础 ， 大 大 扩展 了 NumPy 的 能 力 。 为 了 使 用 方便 ，SciPy 
包 在 最 外 层 名 字 空 间 中 包括 了 所 有 的 NumPy 内 容 ， 因 此 只 要 导入 了 SciPy， 不 必 在 单独 导 
A Numpy T! 但 是 为 了 明确 哪些 是 NumPy 中 实现 的 ， 哪 些 是 SciPy 中 实现 的 ， 本 文 还 是 
进行 了 区 分 。 以 下 已 经 默认 : import NumPy as np 以 及 import SciPy as sp. 

下 面 简要 介绍 Python fll MATLAB 处 理 数学 问题 的 几 个 不 同 点 。 

(D MATLAB 的 基本 是 和 矩阵， 而 NumPy 的 基本 类 型 是 多 为 数组 ， 把 matrix 看 做 是 
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array 的 子 类 。 
(2) MATLAB 的 索引 从 1 开始 ， 而 NumPy 从 0 开始。 
对 于 建立 矩阵 方面 ，Python 的 做 法 是 : 

















al- np.array([1,2,3],dtype- int) # 建立 一 个 一 维 数组 ,数据 类 型 是 inc. dun 
以 不 指定 数据 类 型 ,使 用 上 默认。 几乎 所 有 的 数组 建立 函数 都 可 以 指定 数据 类 型 。 

a2- np.array([[1,2,3],[2,3,4]1]) €& £&xr—-4- EB, 

同样 ,NumPy 中 也 有 很 多 内 置 的 特殊 矩阵: 

b1- np. zeros ( (2, 3)) # 生成 一 个 2 行 3 列 的 全 0 E, A E A tuple: 
(2,3) ,所 以 有 两 个 括号 。 完 整 的 形式 为 :zeros (shape, dtype= ) 。 相 同 的 结构 ,有 ones () 建 
LE 14E, empty () £ v.— ^F ZEB x ,使 用 内 存 中 的 随机 值 来 填充 这 个 和 矩阵 。 



































b2- identity (n) # 建立 n xn 的 单位 阵 , 这 只 能 是 一 个 方 阵 。 
b3- eye(N,M- None, k= 0) # 建立 一 个 对 角 线 是 1 其 余 值 为 0 的 矩阵 ,用 & 指定 对 角 


线 的 位 置 。M 默认 None, 





此 外 ，NumPy 中 还 提供 了 几 个 like 丽 数 ， 即 按照 某 一 个 已 知 的 数组 的 规模 〈 几 行 儿 列 ) 
建立 同样 规模 的 特殊 数组 。 这 样 的 函数 有 zeros like ()、empty like ©, ones. like ©, 
它们 的 参数 均 为 如 此 形式 ， zeros like (a, dtype=), WF, a 是 一 个 已 知 的 数组 。 





cl 一 np. arange (2, 3, 0.1) HER, AA, HRE. RERE, ME ZAE. 
c2=np. linspace (1, 4, 10) — 井 起 点 ， 终 点 ， 区 间 内 点 数 。 起 点 终点 均 包 括 在 内 。 


同 理 ， 有 logspace O 函数 。 


dl 一 np. linalg. companion (a) 井 伴 随和 矩阵 。 

d2=np. linalg. triu O /tri O # 作 用 同 MATLAB 中 的 同名 也 数 。 

el=np. random. rand (3. 2) 井 产 生 一 个 3 行 2 列 的 随机 数组 。 同 一 空间 下 ， 有 

randn O /randint () 等 多 个 随机 函数 。 

2. 矩阵 的 特征 信息 

size (X) KIRITI RE X 的 行 、 列 数 。 比 如 ，X 是 一 个 3 * 5 WERE, p—size (X) 
RE p= [35]. 

length O  % 对 于 矢量 ， 返 回 的 是 矢量 的 长 度 ， 对 数组 ， 返 回 的 是 数组 最 长 的 那 一 个 
维度 的 长 度 。 

ndims © 96 相当 于 length (size GO )。 

numel © % 数组 中 元 素 的 个 数 。 























isempty © 和 isequal O 等 isx* 型 函数 96 测试 矩阵 是 否 满足 某 些 条 件 。 
LV，D] —eig (A) SERE A 的 特征 值 D 和 特征 向 量 V。 
k=rank CA) XERE A 的 秩 。 

b=trace CA) KERE A 的 迹 ， 即 对 角 线 元 素 之 和 。 
d=det OO KTE A 的 行列 式 。 

Y=inv OO WB EE X 的 闭 和 矩阵 。 

n=norm (X. option) % 和 矩阵 或 者 向 量 的 范 数 。 
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c—cond (X) AFERE X 的 条 件数 。 

对 于 数组 的 特征 信息 ，Python 语言 的 做 法 是 : 

先 假设 已 经 存在 一 个 N 维 数组 X 了 ， 那么 可 以 得 到 XX 的 一 些 属性 ， 这 些 属性 可 以 在 输 
人 XX 和 一 个 . 之 后 ， 按 tab 键 查 看 提示 。 这 里 明显 看 到 了 Python 面向 对 象 的 特征 。 

X. flags # 数组 的 存储 情况 信息 。 

X. shape 结果 是 一 个 数组 ,返回 本 数组 的 行 数 、 列 数 、……… 

X. ndim * 数组 的 维 数 ,结果 是 一 个 数 。 

X. size # 数组 中 元 素 的 数量 。 

X. itemsize # 数组 中 的 数据 项 的 所 占 内 存 空 间 大 小 。 

X. dtype # 数据 类 型 。 

XT # 如 果 X 是 和 矩阵, 发挥 的 是 XX "yf EEE. 

X. trace() # 计算 的 迹 。 

np. linalg. det (a) # 返回 的 是 矩 阵 a 的 行列 式 值 。 

np. linalg. norm(a, ord= None) # 计算 矩阵 a 的 范 数 。 

np. linalg. eig(a) * AREE a 的 特征 值 和 特征 向 量 。 

np. linalg. cond(a,p- None) + 和 矩阵 a 的 条 件数 。 

np. linalg. inv(a) # JERE a WIERE. 

3. 矩阵 分 解 

和 矩阵 分 解 是 矩阵 论 的 重要 内 容 。 和 常用 的 分 解 形式 在 MATLAB 中 都 有 函数 予以 实现 ， 并 
上 且 有 些 分 解 考 虑 了 多 种 情况 。 常 见 的 如 : eig O, qr ()、schur O, svd ©, chol O, lu 





O 等 。 而 在 Python 语言 中 ， 对 一 些 常见 的 矩阵 分 解 函 数 ，numpy. linalg 均 已 经 提供 。 比 





如 cholesky O /qr () /svd O /lu O /schur O 等 。 


同 的 特殊 情况 ， 还 给 出 了 多 种 调用 形式 ， 以 便 得 到 最 
4. 和 矩阵 运算 
MATLAB 默认 的 是 矩阵 运算 ， 所 以 如 果 想 要 按 
piedi un 

运算 符 都 有 一 个 对 应 的 函数 。 如 


qu 


A-F-B-—plusCA,B),A— B- minusCA. B) 

A * B— mtimesC A.B), A. * B—timesC A.D) 
A/B— 
A. NB— IdivideCA , B) 

A^B-— mpowerCA.D)2,A. ^B— powerCA, B) 
A'— ctransposeC A) , A. '— transposeC A) 








其 中 的 前 级 m 自然 是 表示 matrix 的 意思 。 





没有 m 前 级 的 就 是 按 元 素 进行 的 意思 。 


某 些 算法 为 了 方便 计算 或 者 针对 不 


EHR. 








元 素 依次 计算 ， 在 原来 运算 符 前 加 一 个 


mrdivideC A. B), A. /B— rdivideC A. B) , ANB— mldivideC A, B) , 








思 。 最 后 


ra 


那个 转 置 操作 ，c 前 级 表示 的 是 按照 复数 操作 进行 转 置 。 





此 外 ， 还 有 一 些 比较 常用 的 运算 ; 
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C=cross (A, B) VOAKdE SLE, XWH, C—dot CA. B) 是 矢量 点 乘 。 
B—prod (A, dim) % 数组 元 素 的 乘积 ， 默 认 按 列 计算 。dim 二 1 是 列 ，dim 二 2 是 按 

行 。 这 个 概念 很 重要 ! 类 似 的 ，B= sum (A, dim) 求 数组 元 素 的 和 。dim 意义 和 以 上 同 。 
expm © %% 和 矩阵 指数 运算 。 与 此 类 似 的 还 有 logm ()，sqrtm O. 








对 于 和 矩阵 运算 ，Python 语言 的 做 法 是 : 


np. dot (a, b) # 用 来 计算 数组 的 点 积 








vdot (a,b) # 专门 计算 矢量 的 点 积 , 和 qdot () 的 区 别 在 于 对 complex 数据 类 型 的 处 
理 不 一 样 

innner (a,b) # 用 来 计算 内 积 

outer (a, b) # 计算 外 积 


专门 处 理 和 矩阵 的 数学 函数 在 Python 语言 中 的 NumPy 的 子 包 linalg 中 定义 。 比 如 
np. linalg. logm (A) 计算 矩阵 A 的 对 数 。 可 见 ， 这 个 处 理 和 MATLAB 是 类 似 的 ， 使 用 一 
个 m 后 缀 表示 是 矩阵 的 运算 。 在 这 个 空间 内 可 以 使 用 的 有 cosm O /sinm © /signm O / 
sqrtm O 等 。 其 中 常规 exp O 对 应 有 三 种 矩阵 形式 : expm O 使 用 Pade 近似 算法 、 
expm2 O 使 用 特征 值 分 析 算 法 、expm3 O 使 用 泰勒 级 数 算法 。 在 NumPy 中 ， 也 有 一 个 
计算 和 矩阵 的 函数 : funm (A, func). 

5. 矩阵 索引 

选择 使 用 和 矩阵 中 的 某 些 元 素 ， 就 是 所 谓 的 矩阵 索引 了 ， 在 MATLAB m, 

AGD — 26 BRERA 的 所 有 行 , 第 j 列 ， 同 理 ，A (i,:) 是 第 ; 行 ， 所 有 列 

A (:，j: k) % BUS 1. Bj 列 至 第 & 列 (起 点 和 终点 均 含 )。 
































对 于 和 矩阵 索引 ，Python 语言 中 的 numpy 中 的 数组 索引 形式 如 下 : 
x=np. arange(10) 


print x[2] # 单 个 元 素 , 从 前 往 后 正 向 索引 。 注 意 下 标 是 从 0 开始 的 

















print x[ —2] # 从 后 往 前 索引 。 最 后 一 个 元 素 的 下 标 是 一 1 

print x[ 2:5] # 多 个 元 素 , 左 闭 右 开 ,默认 步 长 值 是 1 

print x[ :一 7] # 多 个 元 素 ,从 后 向 前 ,制定 了 结束 的 位 置 ,使 用 默认 步 长 值 
print xL 1:7:2] 井 指定 步 长 值 








x. shape— (2.5) # x 的 shape 属性 被 重新 赋值 ,要 求 就 是 元 素 个 数 不 变 。2* 5—10 
print x[ 1,3] # 二 维 数组 索引 单个 元 素 , 第 2 行 第 4 列 的 那个 元 素 

print xLO] # 第 一 行 所 有 的 元 素 

y=np. arange(35). reshape(5,7) ##reshape() 函 数 用 于 改变 数组 的 维度 

print y[1:5:2,::2] # 选择 二 维 数 组 中 的 某 些 符合 条 件 的 元 素 

在 Python 中 存在 很 好 用 的 rangeO 5 array() 阴 数 ,下 面 对 此 作出 简要 介绍 。 




















(DrangeO 函数 

Z3z-range(l,10) 一 一 这 不 包括 10 
[1,2,3,4,5,6,7,8,9] 

233»range(l.10.2) 一 一 >1 到 10, 间 隔 为 2( 不 包括 100 


[153,5,7,9] 
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232» range(10) — —7»0 到 10, 不 包括 10 
[0.1.2,3.4,5,6,7,8,9] 
(2)array O PK 
Array —[2.3.9.1.4,7,6,8] 
这 个 是 一 个 数字 列表 ,没有 顺序 的 。 
[2,3,9,15457,6,8.] 
M fit ti T 6 5 FE S] EDI (0.1.2.3.4.5,6.7) —— 7 Bi WE 5 
























































从 后 面 开 始 的 顺序 列表 为 {一 8, 一 7, 一 6, 一 5, 一 4, 一 3, 一 2, 一 1) 二 后 面 序号 
222» Array[0:] 一 一 之 切片 从 前 面 序号 “0” 开 始 到 结尾 ,包括 “0” 位 
[2,3,9,1,4,7,6,8] 

C Aray[:—1] ”一 一 之 切片 从 后 面 序 号 “一 1” 到 最 前 ,不 包括 “一 1” 位 
[2,3,9,1,4,7,6] 

>> Arry[3:—2] 一 之 切 从 前 面 序号 “3” 开 始 ( 包 括 ) 到 从 后 面 序号 “一 2” 结 束 (不 包括 ) 
[1,4,7] 

222» Array[L3: :2] 一 一 > 从 前 面 序号 ”3”( 包 括 ) 到 最 后 ,其 中 分 隔 为 “2? 
[1,7,8] 

222» Arrayl::2] 一 一 之 从 整 列 表 中 切 出 ,分 隔 为 “2” 

[2.9.4.6] 

232» Array| 3::] 一 一 之 从 前 面 序号 “3 开始 到 最 后 ,没有 分 隔 
[1,4,7,6,8] 

>Array|3:: 一 2] 一 一 > 从 前 面 序号 “3 开始 , 往 回 数 第 二 个 ,因为 分 隔 为 “一 2” 
[1.3] 

222» Array| —1] 一 一 之 此 为 切 出 最 后 一 个 

8 

222» Array[ : :—1] 一 一 之 此 为 倒序 


[8,6,7,4,1,9,3,2] 

能 更 好 地 认识 两 者 的 区 别 和 联系 ， 同 时 梳理 了 展开 的 思路 ， 摸 索 出 了 进一步 学 习 的 方 
法 。 可 以 看 到 ，MATLAB 中 实现 了 的 函数 或 者 功能 ， 在 NumPy 中 都 有 了 对 应 ， 并 且 有 些 
实现 得 更 好 。 

MATLAB 

help PA Zi SERR A 26 Hh die PR co t dz RI S UI foi I. 

doc 函数 名 % 在 帮助 浏览 器 中 给 出 帮助 信息 ， 这 个 界面 更 友好 

lookfor % 这 是 一 个 模糊 寻找 ,含有 关键 词 的 词 条 入 口 都 会 给 出 来 

Python 

help (np.add) — £& ZU XT add 的 帮助 信息 























E, Python 语言 中 的 基础 绘图 操作 


1. 关于 Matplotlib 模块 

Matplotlib 是 一 个 由 John Hunter 等 开发 的 ， 用 以 绘制 二 维 图 形 的 Python 模块 。 它 利 
用 了 Python 下 的 数值 计算 模块 Numeric 及 Numarray， 克 隆 了 许多 Matlab 中 的 函数 , 用 以 
帮助 用 户 轻 松 地 获得 高 质量 的 二 维 图 形 。Matplotlib 可 以 绘制 多 种 形式 的 图 形 包 括 普通 的 线 




















附 录 | 8 | 





图 、 直 方 图 、 饼 图 、 散 点 图 以 及 误差 线 图 等 ， 可 以 比较 方便 地 定制 图 形 的 各 种 属性 比如 图 线 
的 类 型 、 颜 色 、 粗 细 、 字 体 的 大 小 等 ， 它 能 够 很 好 地 支持 一 部 分 TeX 排版 命令 ， 可 以 比较 
美观 地 显示 图 形 中 的 数学 公式 。Matplotlib 掌握 起 来 也 很 容易 ， 由 于 Matplotlib 使 用 的 大 部 
分 函数 都 与 Matlab 中 对 应 的 函数 同名 ， 且 各 种 参数 的 含义 ， 使 用 方法 也 一 致 ， 这 就 使 得 熟 
悉 Matlab 的 用 户 使 用 起 来 感到 得 心 应 手 。 对 那些 不 熟悉 的 Matlab 的 用 户 而 言 ， 这 些 函 数 
的 意义 往往 也 是 一 目 了 然 的 ， 因 此 只 要 花 很 少 的 时 间 就 可 以 掌握 。Matplotlib 目前 包含 了 37 
个 不 同 的 模块 ， 如 matlab, mathtext. finance. dates 等 ， 其 中 与 绘图 关系 最 直接 的 是 
matlab 模块 。 可 以 用 下 面 的 命令 装载 并 查看 它 提供 的 函数 
























































232»import matplotlib. matlab 
233»dir (matplotlib. matlab) 





如 果 要 了 解 模块 中 某 个 函数 的 使 用 方法 ， 可 以 使 用 help 命令 。 如 下 面 的 命令 





© help (legend) 
© help (plot) 


会 返回 legend 和 plot 这 两 个 函数 的 信息 。 本 文 拟 通过 一 些 实例 来 说 明 Matplotlib 的 这 些 主 
要 特点 。 相 信 通 过 阅读 这 些 例子 ， 您 能 对 Matplotlib 的 使 用 有 一 个 基本 的 了 解 。 

2. 绘制 一 组 宕 函数 

先 从 一 个 简单 的 例子 开始 讨论 。 假 设 要 在 一 个 图 形 中 显示 一 组 寡 函 数 。 这 组 震 函 数 的 基 
不 同 ， 分 别 为 10， 自 然 对 数 e 和 2。 可 以 用 如 下 Python 脚本 去 描绘 这 组 曲线 ， 生 成 的 图 形 
如 图 V-1 所 示 。 


















































绘制 的 宕 函数 图 形 


from matplotlib. matlab import * 
x= linspace(— 4,4,200) 
fl- power (10, x) 


F 册 10 化 学 计量 学 





qk 


| sss 分 析 化 学 


f2- power (e, x) 


f3- power (2, x) 


pilotis eira — ssLdEZ,L e $18 nw 2 
axis([- 4,4,- 0.5,8]) 

ies. 75,15 8 OAS onsze 15) 

ise. 2.7,5.125 nse 14) 

ESES An o arate AAS "V. iei 16) 


title('A simple example', fontsize= 16) 


savefig('power.png',dpi- 75) 


show () 


程序 的 第 一 行 装载 了 Matlab 模块 。 接 下 来 的 几 行 语句 (至 savefig 之 前 ) 好 像 是 在 运行 
MATLAB 程序 ， 因 为 linspace. power. plot. axis. text. title 这 些 函 数 在 MATLAB 中 也 
存在 。 这 个 例子 展示 了 Matplotlib 中 几 个 比较 常用 的 绘图 函数 ， 如 plot，axis，title， 等 的 
用 法 。 其 中 plot 是 一 个 功能 十 分 强大 的 函数 ， 通 过 改变 它 的 参数 选项 ， 可 以 灵活 地 修改 图 
形 的 各 种 属性 ， 比 如 选用 的 线 型 、 颜 色 、 宽 度 等 。 

3. 显示 图 形 中 的 数学 公式 

Matplotlib 可 以 支持 一 部 分 TeX 的 排版 指令 ， 因 此 用 户 在 绘制 含有 数学 公式 的 图 形 时 
会 感到 很 方便 并 且 可 以 得 到 比较 满意 的 显示 效果 ， 所 需要 的 仅仅 是 一 些 TeX 的 排版 知识 。 
下 面 的 这 个 例子 显示 了 如 何在 图 形 的 不 同位 置 上 ， 如 坐标 轴 标 签 ， 图 形 的 标题 以 及 图 形 中 适 
当 的 位 置 处 ， 显 示 数 学 公式 。 相 应 的 Python 程序 如 下 ， 生 成 的 图 形 见 图 信 -2。 


















































Jf (x) is damping with x 
1 T T T 
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Amplitude f (x) 
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EP) 图 形 中 数学 公式 的 显示 
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from matplotlib. matlab import * 
ele. iE (5x56) 8 
ml= sin(2* pi* x) 
m2= exp(- c* x) 
return multiply (ml,m2) 
x- linspace(0,4,100) 
sigma- 0. 5 
plot(x,f(x,sigma),'r',linewidth- 2) 
xlabel(r'$ Nrm(time) \ t$ ',fontsize- 16) 
ylabel(r'$ Nrm(Amplitude) NV f(x)$ ',fontsize- 16) 
tree (em i em wn ftonisize-416) 
Gexe(2 000105 MC mm Ap ee Ns ioma xie omesze 2/0) 
savefig('latex. png', dpi= 75) 


show() 





从 程序 中 可 以 看 出 ， 在 Matplotlib 中 进行 有 关 数 学 公式 的 排版 是 很 简单 的 。 与 TeX HE 
版 时 的 约定 一 样 ， 要 插入 的 公式 部 分 由 一 对 美元 符号 $ 来 进行 标识 ， 而 具体 的 排版 命令 与 
TeX 一 样 。 在 任何 可 以 显示 文本 的 地 方 ( 如 轴 的 标签 ， 标 题 处 ， 等 ) 都 可 以 插入 需要 的 公 
式 。 需 要 注意 的 是 ， 数 学 公式 所 在 的 字符 串 开 始 之 处 有 一 个 标记 r， 表 示 该 字符 串 是 一 个 
raw string。 这 是 因为 排版 公式 时 ， 字 符 串 所 包含 的 内 容 必须 按照 TeX 的 规范 ， 而 不 是 其 他 
的 规范 ， 来 进行 解析 。 所 以 使 用 raw string 可 以 避免 其 他 规则 解释 字符 串 中 某 些 特殊 字符 所 
带 来 的 歧义 。 从 生成 的 图 形 可 以 看 到 ， 公 式 显示 的 效果 是 比较 美观 的 。 

4. 绘制 其 他 格式 的 图 形 

除了 常用 的 线 图 ，Matplotlib 还 可 以 绘制 其 他 种 类 的 图 形 ， 如 直方 图 ， 人 饼 图 ， 误差 线 
图 ， 等 等 。 下 面 是 一 个 处 理 实验 数据 的 例子 (图 NN-3)。 它 用 直方 图 的 形式 比较 了 实际 测量 
电流 和 理论 计算 电流 ， 同 时 还 显 示 了 测量 的 误差 分 布 情 况 。 程 序 首先 读 取 实验 数据 cur- 
rent. dat， 获 得 数据 后 利用 吨 数 bar. 进行 绘图 。 

















































































































from matplotlib. matlab import* 

filename- "d:NNweiNNexpNNcurrent. dat" 

X- load(filename) 

dp= X[:,0] 

i mea- X[:,1] 

i mea err- X[:,2] 

i cal-2 X[:,3] 

i eal lerrS Xiks] 

width= 3 

hl= bar (dp, i_mea, width, color= 'r',yerr= i mea err) 
hn2— bar(dp* width,i cal,width,color- 'b',yerr- i cal err) 
xlabel('Particle diameter (nm)',fontsize- 16) 
xticks(dp* width, dp) 

ylabel('Signal current (nA)',fontsize- 16) 


title('Measured current vs. calculated current") 
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legend((h1[0],h2[0]), ('measured current','calculated current'),loc- 2) 
savefig('current. png',dpi- 75) 
show() 


Measured current vs, calculated current 
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ENEG 测量 电流 与 计算 电流 


MEF PLAH., Kr load 极 大 地 方便 了 数据 文件 的 读 取 工作 〈 不 需要 自己 写 代 码 
来 处 理 数据 文件 了 )， 它 的 输出 直接 被 传递 至 函数 bar 中 ， 进 而 完成 直方 图 和 误差 线 图 的 绘制 。 

5. GLP 集合 计算 结果 的 可 视 化 

Python 是 一 种 比较 适合 用 来 进行 科学 计算 的 脚本 语言 ， 如 果 利 用 了 Numeric 及 Nu- 
marray 模块 ， 它 的 计算 能 力 还 能 得 到 进一步 的 增强 。Matplotlib 也 充分 利用 了 这 两 个 模块 ， 
可 以 高 质量 地 完成 计算 结果 可 视 化 的 工作 。 下 面 是 一 个 计算 和 显示 两 维 好 格子 点 GLP 
(good lattice point set) 集合 的 例子 (图 人 -4)。GLP 集合 是 一 种 用 算法 产生 的 伪 随 机 数 的 集 
合 ， 它 在 一 些 优化 计算 中 很 有 用 ， 详 细 的 介绍 可 以 在 参考 文献 里 找到 。 下 面 的 Python 程序 
先 定 义 了 一 个 函数 glp (nl. n2) 用 以 产生 需要 的 GLP 集合 ， 接 着 利用 Matplotlib 来 显示 
它 的 分 布 情况 (应 该 是 均匀 分 布 的 )。 















































# A two dimensional GLP set 

# with nl- 377,n2- 610 

from matplotlib. matlab import * 

def glp(n1,n2): 

q= zeros((2,n2),Float) 

Imc 35 Img imd 

for i in arange(n2- 1): 

aioli i= (iemaexel(udedi*s (a 4D) n= (05 5) m2 
eiii i= (emwexel(ue2 (nm 4D) ni2)— (05 5 m2 
elol [pav abes (üa2— (05 5)) /nn 


Hox e | 


q[1][n2- j= (n2- O0. 5) /n2 

el Lmee 

nl- 377; n2- 610 

q- glp(n1l,n2) 

x- q[0,:] 

y= Glis] 

plot(x,y,'r.',linewidth- 2) 

eS SE OIN], 

title(r'$ Nrm(GLP NV set N with) NV n 1—- 377, N n. 2-7 610$ u) 
savefig('glp.png',dpi- 75) 


show() 


GLP n1=377, ns=610 
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ENTER GLP 集合 的 分 布 








最 初 是 用 MATLAB 来 完成 这 个 工作 的 ， 用 Python 来 实现 一 样 很 简洁 。 程 序 中 函数 
glp 的 实现 主要 是 利用 了 模块 Numeric， 计 算得 到 的 结果 用 plot 函数 直接 加 以 显示 ， 十 分 方 
便 。 这 个 例子 (包括 上 一 个 例子 ) 显示 了 ， 在 利用 Python 进行 某 些 科学 及 工程 计算 时 ， 
Matplotlib 往往 能 简洁 高 效 地 完成 计算 结果 可 视 化 的 工作 。 

































































Python 中 有 许多 可 视 化 模块 ， 最 流行 的 当 属 Matpalotlib 库 。 稍 加 提 及 ， 也 可 选择 
bokeh 和 seaborn 模块 。 前 文中 , 已 经 说 明了 Matplotlib 库 中 的 盒 须 图 模块 功能 。 





1 | # Import the module for plotting 
2 | import matplotlib. pyplot as plt 
3 | plt. show (df. plot Ckind—'box) ) 














现在 ， 可 以 用 pandas 模块 中 集成 R 的 ggplot 主题 来 美化 图 表 。 要 使 用 ggplot， 只 需要 
在 上 述 代 码 中 多 加 一 行 。 
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1 | import matplotlib. pyplot as plt 
pd. options. display. mpl _ style= 'default' # Sets the plotting display theme to ggplot2 
df. plot (kind— 'box ') 
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使 用 ggplot 美化 图 


比 matplotlib. pyplot 主题 简洁 太 多 。 但 是 在 本 文中 ， 更 愿意 引入 seaborn 模块 ， 该 模块 
是 一 个 统计 数据 可 视 化 库 。 因 此 有 : 











1 | # Import the seaborn library 

2 | import seaborn as sns 

3 | € Do the boxplot 

4 | plt. show (sns. boxplot (df. widths-—0. 5, color= 


pastel" ) ) 











多 性 感 的 盒 式 图 K-6， 继 续 往 下 看 。 
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1 plt. show (sns. violinplot (df, widths=0. 5, color= 


pastel" ) ) 
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plt. show (sns. distplot (df. ix [:. 2]. rug= True. bins—15) ) 











with sns. axes _ style (" white" ): 


plt. show (sns. jointplot (df.ix [:. 1]. d£ ix [:. 2]. kind=" kde" ) ) 
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1 plt. show (sns. 


Implot (" Benguet 
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六 、 常 用 化 学 计量 学 算法 的 Python 语言 源 代 码 


为 使 读者 对 Python 语言 有 更 具体 的 了 解 ， 在 此 将 本 书 中 讨论 过 的 多 个 算法 的 Python i$ 
言 源 代码 在 此 给 出 ， 并 进行 必要 的 说 明 。 

随机 选择 (random sampling. RS) 法 即 随机 选取 一 定数 量 的 样本 (一 般 选 75%) 组 成 
训练 集 。 这 种 选取 完全 是 根据 随机 选择 的 原则 来 选择 训练 集 ， 目 的 就 在 于 使 所 选取 的 训练 集 
样本 具有 整体 代表 性 。 这 种 训练 集 组 成 方法 简单 ， 只 遵循 随机 采样 原则 ， 不 需要 采用 特别 方 
法 进行 数据 挑选 。 值 得 指出 的 是 ， 这 种 方法 一 般 要 求 样本 量 较 大 ， 且 样本 分 布 较为 均匀 
才 行 。 

随机 选择 法 的 Python 语言 源 代码 . 























def RandomSampling(X, Num): 
rand_index=arange(1,X. shape[ 0 十 1) 
shuffle(rand_index) 
return {'CalibrationIndex':rand index[0;Num |, ' ValidationIndex' :rand_index 


[Num']) 


KS(CKennard-Stone, KS) i 

KS 法 是 一 个 对 随机 选择 法 加 以 改进 ， 使 训练 库 中 样本 可 按照 空间 距离 分 布 均匀 ， 以 保 
证 训练 集 样本 具有 足够 代表 性 ， 在 近 红 外 光谱 的 建 模 中 得 到 广泛 应 用 (具体 算法 参阅 第 六 
章 )。 该 法 需要 进行 数据 转换 和 计算 样本 两 两 空间 距离 ， 计算 量 较 大 。 

KS 方法 的 Python 语言 源 代码 : 




















def KennardStone (X, Num): 
nrow — X. shape[ 0 ) 
CalInd —zeros( (Num) . dtype— int) —1 


vAll—arange(0.nrow) 


for i in range(nrow— 1): 
for j in rangeCi-- 1, nrow); 
D[i.;j]9normCOX[i. : ]  XLj : D 
ind— where (D= =D. maxO) 
10 CalInd[0 ] 2 ind[.0 ] 
11 CalInd[ 1 ]— ind[ 1 ] 


1 
2 
3 
4 
5 D=zeros( (nrow ,nrow)) 
6 
7 
8 
9 


12 for iin range (2. Num): 

13 vNotSelected-— array(listCset vAID — setCCalInd))) 
14 vMinDistance— zeros( nrow — i) 

15 for j in range(nrow— i): 

16 nIndexNotSelected— vNotSelected[ j 

17 vDistanceNew — zeros(Ci)) 

18 for k in range(i) : 


19 nIndexSelected— CalInd[ k] 
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20 if nIndexSelected <= nIndexNotSelected: 

21 vDistanceNew[| k |= D| nIndexSelected, nIndexNotSelected | 
22 else: 

23 vDistanceNew[k |= D| nIndexNotSelected . nIndexSelected | 
24 vMinDistance[ j ] ^ vDistanceNew. minO 

25 nIndexvMinDistance— where(vMinDistance— — vMinDistance. max()) 
26 CalInd[i]- vNotSelected[ nIndexvMinDistance ] 


27 Vallnd=array(list(set CvAID —setCCalInd))) 
28 return ('Calibration Index' :CalInd. ' ValidationIndex' : ValIndj 


基于 联合 X-Y 距离 的 样本 臂 分 法 (SPXY 法 ) 是 在 KS 法 的 基础 上 发 展 而 来 的 ， 实 验证 
明 ，SPXY 法 能 有 效 地 覆盖 多 维 向 量 空 间 ， 从 而 可 改善 所 建 模型 的 预测 能 
SPXY 方法 的 Python 语言 源 代码 : 





def SPXY (X,Y,Num): 
nrow — X, shape[ 0] 
CalInd—zeros( (Num) ,dtype-— int) — 1 


vAll—arange (0,nrow) 


1 

2 

3 

4 

5 DX=zeros((nrow,nrow)) 
6 DY=zeros((nrow,nrow)) 

7 fori in range(nrow—1): 

8 forj in rangeCicd- 1, nrow) : 

9 DX[i.;j]—norm(X[i, : ]—X[j; : D 
10 DY[i.j]—norm(Y[i.: ]— Y[j. :.D 
11 D= DX/DX. max) - DY/DY. max) 

12 ind— where (D= =D. max() ) 

13 CalInd[ 0 ]- ind[.0 ] 

14 CalInd[ 1 ]— ind[ 1 ] 


15 for i in range(2, Num) : 

16 vNotSelected— array list set v AID — setCCalInd))) 

17 vMinDistance- zeros( nrow— i) 

18 for j in range(nrow — i): 

19 nIndexNotSelected — v NotSelected[| j 

20 vDistanceNew — zeros( (1)) 

21 for k in range(i) : 

22 nIndexSelected — CalInd[ k] 

23 if nIndexSelected — — nIndexNotSelected: 

24 vDistanceNewL[ k ]— D| nIndexSelected . nIndexNotSelected | 
25 else: 

26 vDistanceNew[ k ] - D[ nIndexNotSelected , nIndexSelected | 
27 vMinDistance[ j ]= vDistanceNew. min O 


28 nIndexvMinDistance- where( vMinDistance- — vMinDistance. max ()) 
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29 CalInd[i] ^ vNotSelected[ nIndexvMinDistance | 
30 ValInd- array(list(set CvAID — setCCalInd))) 
31 return {'CalibrationIndex' ; CalInd, ' ValidationIndex' :Vallnd} 


在 进行 回归 或 模式 识别 前 ， 一 般 都 需要 对 数据 进行 必要 预 处 理 ， 下 列 出 了 三 种 预 处 理 方 
法 ， 即 所 谓 的 范围 标 度 化 (Rangescale) 、 自 标 度 化 Cautoscale) 和 中 心 化 (centering) 的 
Python 语言 的 源 代码 : 


def rangescale(X) : 


xmin- X. min(0) 


1 
2 
3 xmax- X. max(0) 
4 Xr— (X— tile( xmin. (X. shape[ 0]. 12)? /tile(xmax-— xmin, (X. shape[0].1)) 
5 return ('xmin';xmin,'xmax';xmax,'Xr';Xr) 
def autoscaleCX) : 
xc— mean(X.0) 
xvar— var(X,0) 
Xa (X— tile(Cxc, CX. shape[0]. 122) /tile(Cxvar. CX. shape[0 ]. 12) 


return ('xc':xc. 'xvar':xvar. 'Xa' ;Xa] 


a e 00 N ae 


def center(X) : 
xc— mean(X,0) 
Xc—X-— tile(xc, CX. shape[0].1)) 


return ('xc':xc. 'Xc':Xcj 


Savitsky-Golay 平滑 的 Python 语言 的 源 代码 。 在 此 ,SGSDW 函数 主要 用 来 产生 给 定 窗 
口 大 小 的 权 因 子 Cw) 以 执行 Savitsky-Golay 平滑 和 微分 。 而 SGConvolution 函数 主要 用 来 
做 卷 积 。 


1 def SGSDW(m,p,d): 

2 M= ones((m. shape[ 0]. 12) 

3 for iin range(p): 

4 M-c [M.m * * (4-1)] 

5 H—dotCnv(CdotC M. T. MD).M. T); 
6 c—zerosCCl. p4- 12) 

7 c[0.d]- prodCarangeC1.d4-1)) 

8 return dot(c, H) 


1 def SGConvolution(x,hws=5,p=2,d=0): 

2 coef — SGSDW (arangeC —hws.hws-d-1).p.d) 
3 out-zeros(x. shape[0]—2 * hws): 
4 


for i in rangeChws. x. shape[0]—hws): 


O CO! 


oo -3 OQ» Ci! A UU Ne 


O o AeA Co N rn 





out [1— hws | dot(coef, xlLi—hws:i+hws+1]) 


return out 


Savitsky-Golay 微分 的 Python 语言 的 源 代 码 : 


def 


def 


下 面 给 出 的 分 别 是 移动 窗口 中 位 数 平滑 、 快 速 FFT 平 滑 和 Whittaker Y 


SGSDW(m,p,d): 
M=ones((m. shape[0].1)) 
for i in range(p): 
M=c [M.m* x*(i 十 1) 
H= dot(inv(dot(M. T,M)),M. T); 
c=zeros((1,p+1)) 
c[0.d]- prod(arange(C1.d-4-1)) 
return dot(c, H) 


SGConvolution(x,hws=5,p=2,d=0):; 
coef — SGSDW CarangeC—hws.hws--1).p.d) 
out-zeros(x. shape[ 0]—2 * hws): 
for i in range(hws.x. shape[ 0]— hws): 
out[ i— hws ]— dotCcoef. x[ i—hws:id-hws--1]) 


return out 




















言 的 源 代码 。 


1 
2 
3 
4 
5 


c o e w n nm 


def 


def 


def 


MedianSmooth(x.hws- 5); 
out-zeros(x. shape[ 0]—2 * hws) 
for i in range(hws. x. shape[ 0]— hws): 


out[ i—hws ]— median(x[i—hws:i--hws--1] 





return out 


FFTSmooth(x.nc): 

c—ones(nc.complex) 

c—r [c.zerosCx. shape[ 0] — ne. complex) ) 
xf— fftCx2 

xs-—ifftCxf * c) 


return xs,real 


WhittakerS8mooth(x.lamb,w): 

m= w. shape[ 0] 

W —spdiagsCw.0.m.m) 
D-—eye(m—1.m.1)—eyeCm—1.m) 

return spsolveCCW 4- lamb * D. transpose) * D),w * x) 
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多 元 线性 回归 如 果 用 Python 语言 来 编写 ,只 需要 以 下 两 行 : 


1 def mlr(X,y): 
2 return dot(dot(inv(dot(X. T,X)),X. T),y) 





主 成 分 分 析 (PCA) 与 主 成 分 回归 (PCR) 的 Python 语言 源 代码 亦 不 复杂 。 在 此 ，pca _ 
svd 是 一 个 python 语言 的 函数 ， 它 可 对 矩阵 进行 奇异 值 分 解 以 完成 主 成 分 分 析 。 


1 def pca svd(X,a): 

2 if X. shape[ 0 ]- — X. shape[ 1]: 
3 C-—dot(CX.X. T) 

4 U.s.VT-svd(CCO) 

5 V-dot(X. T. VT. T) 

6 s—sqrt(s) 

7 V=dot(V ,inv(diag(s))) 
8 T=dot(X,V) 

9 P=V.T 

10 else: 

11 C=dot(X. T.X) 

12 U,s, VT =svd(C) 

13 T=dot(X, VT. T) 

14 P=VT 

15 s—sqrt(s) 

16 return( ' T'; T[:,0:a], 'P';P[0:a.:]) 





以 下 的 pca _ nipals 是 一 个 Python 语言 的 函数 ， 它 可 对 和 矩阵 进行 NIPALS 算法 以 完成 
主 成 分 分 析 。 


1 def pca nipals(X.a.it—10,tol—1e—8): 

2 'T—zeros(CX. shape[0].a)) ; P—zerosC(Ca. X. shape[ 1) 
3 for iin range(a) : 

4 t=X[:,1] 

5 prec=tol+1 

6 nr=o 

7 while not(prec<=tol or it <= nr); 
8 p-—dot(X. T,t)/dot(t. T,t) 

9 p=p/norm(p) 

10 tn=dot(X,p)/dot(p. T. p) 

11 prec= dot(Ct— tn). T, t— tn) 

12 t—tn 

13 nr 一 nr 十 1 
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14 X=X—outer(t,p) 
15 T[:.i]e-t 
16 PLiss]—p 


17 return {'T':T,'P':P} 





以 下 的 perpred 是 一 个 python 语言 的 函数 ， 它 可 用 来 计算 回归 系数 ， 而 且 还 可 计算 出 
相对 应 样本 的 响应 值 。 


1 def pcrpred (pca_struct,y, Xn,a): 

2 T- pca struct[ 'T'] 

3 P-—pca struct[ 'P'] 

4 B-dot(dotC(invCdotCT[ :.0:a]. T. TL :,0:a4 DO; T[:.0:a]. T),y) 
5 yp= dot(dot(Xn,P[0:a.: ). D),B) 

6 


return yp 
PLSI 的 python 语言 的 源 代 码 : 


1 def plsl_nipals(X,y,a): 
2 T=zeros((X. shape[ 0 ].a2) ; P—zeros(CX. shapeLl],a)) 
3 Q —zeros(CC1.a)) ; W —zeros(CX. shape 1].a)) 

4 for iin range(a): 

5 v 一 dot(X.T,yL:,0] 

6 W[:.i]—v/normG? 

7 TL:,i]=dot(X, W[:.ip 

8 PL :,i]= dot(X. T. T[:.1D/dotCT[ :.1]. T. TU i.i] 

9 Q[0.i]-dot(T[:.i]. T.yL:.0) /dotCT[ : 1]. T. T: iD 
10 X—X-—outerCT[ : i). P[ ii 

11 return ('T':T,'P':P,'Q':Q,'W':W)} 


PLS2 的 python 语言 的 源 代码 ; 


1 def pls2 nipalsCX, Y.a,it—10.tol—1e—8): 

2 T=zeros((X. shape[01,a));P=zeros((X. shape[1].a)) 
3 Q=zeros((X. shape[ 1],a)); W=zeros((X. shapel 1],a)) 
4 for i in range(a): 

5 u=Y| ;30] 

6 prec—tol4- 1 

7 nr—0 

8 while not(prec--tol or it <= nr): 

9 w= dot(X. T,u) 

10 w-— w/normCw) 

11 


t= dot(X,w) 


FH dO ， 化 学 计量 学 





qk 


| sso 分 析 化 学 


12 c— dotC Y. T,t) 

13 c— c/norm(c) 

14 un 一 dot(Y，,c) 

15 prec— norm(Cu— un) 
16 nr 二 nr 十 1 

17 Wil:,il=w 

18 "E[ srt 

19 P[:.i]—dotCX. T. O/dot(t. T. t0 
20 d=dot(u. T.O /dotCt. T, O 
21 Q[:.i]—-c*d 

22 X-—X-outer(t.p[ : ip 

23 Y-—Y —outer(t.c) * d 


24 return(  T'; T; 'P':P,'Q':Q:'W':W} 
核 PLS 的 Python 语言 的 源 代码 : 


1 def pls improved kenerl(X,Y,a): 

2 T=zeros((X. shape[ 0]. 420) ; P—zeros(C CX, shape[ 1 ].a)) 
3 Q=zeros( (Y. shape[1].a))? ; RezerosCCX. shape[ 1|,a)) 
4 W —zeros((X. shape[1].a)) 

5 XY-—dotCX. T. YO; 

6 for i in range(a) ; 

7 if Y. shape 1] —1: 

8 W[:.i]—-XY[:.0) 

9 


else: 
10 D,C-eig(dot(XY. T. YY)) 
11 q=CL:,D==max(D)] 
12 WL:,i]ļ=dot(XY.q)[:,0] 
13 wl :,i]=wL:,i]/norm(WL:,i]) 
14 R[L:,i]= WL:,i 
15 for j in range(i): 
16 R[:.iJ—R[:.i]—dot(dot(P[:.3]. WL i 3 D. RE: 3D 
17 T[ :.i]—9dotCX.R[ :.ip 
18 tt—dotCT[:.i]. T. T[ i1] 
19 P[:.i]-—dotCX. T. T[: 1] /tt 
20 QL :.i]—dot(R[:.i]. T. XYO. T/tt 
21 XY — XY —outer(P[ :.i].Q[ 1D * tt 


22 return C'T'; T, 'P';P,'Q' iQ. W'iW) 


用 于 PLS 预测 的 Python 语言 的 源 代码 : 


def plspred(plsresult, Xn,a): 
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p plsresult[ 'P' ]; W—plsresult[ ' W' ]; Q— plsresult[ 'Q' ] 
B-—dot(dotCW[; ,0:a].invCdot(P[ : ,0:a]. T. WL: 0:3 hl ,0:a]. T) 
return dot(Xn,B) 


SIMCA 的 Python i8 z; MARIS : 


1 def simca(X,y,a,alpha): 

2 simcamodels=[ ] 

3 yu=unique(y) 

4 for i in range(yu. shape[ 0]): 

5 Xi= XLyL:,0]==yulij,:] 

6 simcamodels. append(simca pca model(Xi,a,alpha)) 
7 simcamodels[i][ 'yu' ] yu 

8 


return simcamodels 


l1 def simca pca model(X.a.alpha): 

2 n-— X. shape[ 0]; d— X. shape[ 1] 

3 Xcr— centerCX) ; Xc— Xcr[ ' Xe' |;xc—= Xecr| 'xc' ] 

4 pcaresult— pca. svd(Xc.a) ; T— pcaresult[. ' T' ]|; P— pcaresult[ ' P' ] 
5 st—sqrt(sum(T * T.,axis—0)/n) 

6 tlower- T. min(0) — st/2 

7 tupper=T. max(0)+st/2 

8 E=Xc—dot(T,P) 





9 s=sum(E * E,axis=1)/(d—a) 

10 sc—dot(s.s)/(n—a—1) 

11 smax-sqrt(sc * f test. ppf(1—alpha.d—a.(d— 2a) * (n—a—1))) 

12 return {'T':T,'P':P,'tl':tlower, 'tu':tupper, 'xc':xc, 'smax':smaxj 


用 于 SIMCA 预测 的 Python 语言 的 源 代码 : 





1 def simcapred(Xn,simcamodels): 

2 out=zeros( (Xn. shape[ 0],len(simcamodels))) 

3 for iin range(len(simcamodels)) : 

4 Xnc— Xn— tile(simcamodels[ i ][ ' xe' ]. (Xn. shape[ 0]. 12) 
5 'Tn-— dot(Xnc, simcamodels[1i]| ' P' ]. T) 

6 E-— Xnc— dot( Tn, simcamodels[i]| 'P' D 

7 s all^sum(E * E.axis— 1)/CXn. shape[i]— simcamodels[ i J| ' P' ].shape[ 0.) 
8 for j in range(Xn. shape[ 0] : 

9 if all Tn[j. : |2» — simcamodels[i][ ' t1 ' DandN 

10 all Tn[j. : |<= simcamodels[i][ 'tu' DandN 

1 all(s_all[j]< = simcamodels[i][ 'smax' D: 


FH 10 化 学 计量 学 





qk 


| 852 分 析 化 学 


12 out[j.i]—1 


13 return out 


用 于 马 氏 (Mahalanobis) 距离 计算 的 Python 语言 的 源 代码 : 





1 def mahalanobis_distance(X,Xn) : 

2 Xnc— Xn-— tileCCcenter XO [ ' xe' ]. (Xn. shape[ 0]. 10) 

3 md 一 zeros(Xn. shape[ 0]) 

4 for i in range( Xn. shape[ 0 : 

5 md[i]-sqrt(dotCdot(Xnce[i. : ].inv(CcovCX, T))) . Xne[i. : ]. T) 
6 


return md 


一 种 基于 马 氏 距离 (Mahalanobis distance) 的 主 成 分 分 类 的 Python 语言 的 源 代码 : 
在 此 ，pca _ md 是 一 个 python 语言 函数 。 


1 def simca pca model (X.a.alpha) : 

2 n= X. shape[0];d— X. shape[ 1] 

3 Xcr— centerCX) ; Xc— Xer[ ' Xe' ;xc 一 XcrL ' xc ' ] 

4 pcaresult— pca. svdCXc.a) ; T— pcaresult[ ' T ' ]; P— pcaresult[ ' P' ] 
5 st—sqrt(sumCT * T.axis—0)/n) 

6 tlower- T. min(0) 一 St/2 

7 tupper=T. max(0) +st/2 

8 E=Xc—dot(T,P) 

9 s=sum(E * E,axis=1)/(d—a) 


10 sc=dot(s,s)/(n—a—1) 
11 smax=sqrt(sc * f test. ppf(1—alpha,d—a,(d—a) * (Cn 一 a 一 1))) 
12 return {'T':T,'P':P,'tl':tlower, 'tu':tupper, 'xc':xc, 'smax':smax) 








基于 偏 最 小 二 乘 的 判别 分 析 (PLS 一 DA)〉 的 Python 语言 的 源 代码 : 








1 def pls da(X,y,Xn,a,pls type 'pls improved kenerl' ,it=10,tol=1e—8). 
2 yu- unique( y) 

3 Y —zeros(Cy. shape[0]. yu. shape[0])) —1 

4 for i in rangeCyu. shape[ 0.) : 

5 YLyL:,0]==yulij,ij=1 

6 if pls_type=='pls_improved kenerl': 

7 pls result— pls improved kenerl(X.Y.a) 

8 else: 

9 pls result— pls2_nipals(X,Y,a,it,tol) 


10 return plspred(pls result, Xn.a) 
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Whittaker 平滑 方法 和 airpls 自 适 应 迭代 惩罚 最 小 二 乘 : 

惩罚 最 小 二 乘 算法 本 质 上 是 一 种 灵活 的 平滑 方法 。Eilers 扩展 了 其 应 用 范围 ， 并 将 其 用 
于 一 般 的 化 学 信和 号 平滑 和 基线 校正 。 张 志 敏 在 此 基础 上 还 提出 了 自 适 应 和 迭代 加 权 惩 罚 最 小 二 
乘法 (airpls) 方法 ， 下 面 为 该 法 的 Python 语言 的 源 代 码 。 因 为 使 用 了 稀 玻 和 矩阵 技术 ， 此 程 
序 运行 速度 非常 快 。 














def WhittakerSmooth(x,lamb,w): 
m 一 w. shape[ 0] 


1 

2 

3 W= spdiags(w,0,m,m) 

4 D-eye(ím—1.m.1) —eye(m—1.m) 
5 


return spsolveCCW 4- lamb * D. transposeO * DO ,w * x) 


def airPLS(x.lamb-100.itermax-— 10): 
m= x. shape[ 0] 
w-ones(m) 
for i in range(itermax) : 
z= WhittakerS8mooth( x.lamb.w) 
d—x-—z 
if sumCabsCd[ d 0 D) «0. 001 * sum(abs(x)): 
break; 
w[ d«0 ]-— exp( * d[ d0 ]/sumCd[d«0 D) 
0 w[d>=0]=0 
1 


return Z 
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